元数据管理#

元数据管理模块是用来集中采集和管理元数据及血缘的模块,其中分为元数据目录和元数据采集两个子模块。

元数据目录#

元数据目录模块用目录树的结构存储和展示Orbit系统内所有元数据,可以记录和编辑元数据的各种属性、查看状态、历史和统计信息。此外,还可以快速查阅跟某个元数据相关的血缘、质量和数据标准信息。

orbit-meta

观察元数据目录的页面,可以发现它主要由左右两部分组成:左侧是分层次的目录树,右侧是用标签页展示的元数据详情。

元数据目录主页#

元数据目录主页以图表的形式展示了Orbit系统中元数据的各种统计信息。包含元数据数量、元数据发布为资产的数量、元数据访问热度Top10、近7天新增元数据统计、近7天质量问题总数统计、近7天贯标总数统计、血缘数据统计等统计图表。

orbit-meta

元数据目录树#

在目录树上可以分层展开目录、系统、数据库、模式、表等节点。在目录树顶部还能切换“收藏”标签,查看全部收藏元素的列表。左上角的搜索标志则可以进行目录上或收藏菜单中的按类型搜索,方便在一个复杂的目录结构里快速定位某个元数据。

目录树上显示元数据的名称和状态,还能通过菜单进行如下动作:刷新,手动补录数据,权限管理,发布到数据资产,撤销发布,删除。

元数据详情#

观察右侧的标签页,可以发现一个元数据打开的标签页下还有很多子标签。以图中的“KAFKA”这一模式为例,下面的子标签页分别有“表列表”,“视图列表”,“修改历史”,“数据血缘”,“数据标准”,“数据质量”,“基础信息”等。

“表列表”和“视图列表”用来分类展示当前元数据内部的子元素列表。可以在列表内进行排序和筛选搜索操作。打开右上角的“编辑”开关,还可以直接在列表里批量做修改子元素属性、删除。编辑完成后,可以点击页面左下角的“提交审批”按钮保存修改并提交手动修改审批。也可以在编辑模式中,选择多个子元素提交批量发布审批。

“修改历史”展示的是当前元素的编辑历史,包括创建、修改属性等操作,同时也会展示子元素的创建和删除操作。可以通过对“类型”的筛选,单独查看自身或子元素的编辑历史。打开右上角的“编辑”按钮,则可以进行修改历史查看、对比、回退操作。

“数据血缘”页面是当前元数据关联血缘的探索工具,记录了最低到列级别的、多种类型的血缘。具体介绍和操作指南将在下面单独的章节进行描述。

“数据标准”和“数据质量”模块是一个快速检索页面,通过展示了标准和质量模块里跟当前元数据相关的内容列表,可以快速掌握元数据的管理和治理情况,并且可以快速跳转到对应数据治理任务的位置。

“基础信息”页面展示了当前元数据的全部详细属性列表,并且可以通过打开右上角的编辑开关,进行属性的编辑修改。

元数据手动补录#

orbit-meta-manual

点击目录树的功能菜单里的“补录数据库”,“补录模式”,“补录表”等按钮,会展开手动补录页面。在页面上可以任意配置元数据的属性并添加到目录里。为了和自动采集任务采集到的数据进行区分,来源为手动补录的数据图标颜色更浅,并且添加了手动的特殊标识。

元数据编辑模式#

点击右上角的“编辑”按钮可以打开元数据详情页的编辑开关。

进入编辑模式后,子元素列表、血缘、基础属性等页面会允许编辑详情或执行发布、删除、回退等动作。如果在当前的标签页中进行了编辑,切换标签页的时候会提示是否先提交改动,否则当前页面的改动会被丢弃。

编辑完成后,点击页面下方的“提交”按钮可以提交发布。

在编辑模式状态下再次点击“编辑”按钮,可以退出编辑模式。

元数据发布流程和撤销发布#

确认元数据整理无误后,可以通过“发布到数据资产”的动作,将其发布到“数据资产”模块,提供给数据消费侧的用户阅览和检索。

具体的发布动作可以从左侧树状目录的动作菜单中触发,或是在右侧的详情列表编辑模式内部触发。点击提交发布按钮之后,系统将分析当前选中元素的发布状态,以及能发布的所有子元素。发布数据资产的申请将会提交到审批中心,用户需要到“审批中心”—“已提交”页面查看。供“审批流程”里显示的审批人处理。具体的审批流程参见“审批管理”章节的介绍。

如果点击“发布到数据资产”时,系统的发布审批流程没有开启,则会在后台自动发布,后台全部处理完成之后,可以看到相应的数据变为“已发布”状态。

“撤销发布”的操作与“发布”非常相似,作用是撤回已发布完成的内容。完成撤销发布操作之后,“数据资产”页面就无法查看到相应的数据。

点击“撤销发布”,相应的操作也同样在后台进行。用户可以前往“审批中心”—“已提交”页面查看详情。

元数据权限#

元数据权限的统一管理位置在SkyLab权限中心的【数据资产】——【元数据】菜单下,分为管理全局的系统权限和绑定在具体数据上的细粒度权限。

系统权限包括了很多维度的管理和查看权限。“管理系统目录”是影响最大的权限,允许用户在【管理运营】——【业务体系】内部调整整个Orbit元数据存储的体系结构,建议只分配给核心的系统管理员。“创建数据库”、“创建模式”、“创建表/视图”是一系列手动补录数据的权限。“查看血缘”“管理血缘”是元数据详情页面的“数据血缘”页面的操作权限,将在【血缘管理】章节详细介绍。

细粒度权限的最细粒度可以管理到元数据表级。细粒度的权限,除了在权限中心做整体的管理,也可以在元数据目录左侧的左侧树上,展开操作菜单,点击“权限管理”动作,对元数据做单条的权限管理。元数据主要有“查看”、“修改”、“删除”等权限点。这里的权限控制,也会直接影响发布成数据资产之后,哪些用户可以看到该数据。

血缘管理#

数据血缘概述#

​ 数据血缘支持查询来自Wasp任务、SQL解析器、手动指定、贯标任务等多种来源的血缘信息,支持从类型、时间、粒度、状态等多种维度进行查询。

血缘权限#

​ 包含查询血缘及管理血缘权限点,拥有查询血缘权限可以查询所有血缘信息,拥有管理血缘权限可以编辑血缘及使用血缘解析器等功能。

血缘审批#

​ 手动修改血缘及SQL解析血缘需要通过审批才可发布,可以在审批管理模块进行查看审批、撤回审批等操作。

​ 注:血缘的审批详情的血缘图内仅包含当次修改的血缘信息。

功能介绍#

orbit-lineage

搜索功能#

​ 支持对当前页面内元数据进行搜索,并将搜索结果居中、高亮展示在用户面前。

血缘展示类型#

  • 溯源分析:分析元数据的上游数据信息,追溯元数据的来源或加工过程信息。

  • 影响分析:分析元数据的下游数据信息,掌握元数据变更可能造成的影响。

  • 全链路血缘分析:溯源分析加影响分析,展现数据的来龙去脉。

血缘类型#

  • 数据血缘:数据库类元数据的血缘信息。

  • 关联数据标准:包含元数据关联数据标准的信息。

  • 主外键关系:包含数据库表元数据的主外键关系及SQL解析出的join关系。

  • 注:数据血缘、任务血缘、关联数据标准三种类型可以同时展示,但是与主外键关系不能同时展示。

血缘展示级别#

​ 支持系统、数据库、模式、表/视图血缘展示级别,切换不同展示级别可以从不同维度查看血缘信息。

血缘状态#

  • 所有:包含已发布、审批中、正在修改中的血缘信息。

  • 已发布:包含已发布的血缘信息。

  • 审批中:包含当前用户审批中的血缘信息。

  • 修改中:仅展示当前修改的信息,仅在手动修改中可以查询此状态信息。

历史版本查询#

​ 以时间轴的形式展示血缘更新的各个时间节点,可以通过所有人/仅我的筛选时间节点,单击时间轴上的时间节点,可以查询历史时刻的血缘信息。

全屏#

​ 支持全屏展示血缘信息。

放大/缩小/恢复默认#

​ 血缘图支持放大、缩小、拖动等功能,调整后可以通过恢复默认来还原默认。

展开/收起上下游#

​ 支持一键展开上下游1、5、10、15、20层血缘信息,同时支持收起元数据上下游信息。

元数据详情#

​ 单击血缘图中的元数据,可以查询元数据节点的详情,注意:查询节点详情会受元数据的权限控制。

血缘来源详情#

​ 在表/视图展示级别下,单击血缘图两个元数据节点的边可以查询当前血缘的来源信息。

编辑血缘#

​ 支持手动新增及删除血缘信息,当血缘类型为主外键关系时,会对主外键关系血缘进行编辑;当此时血缘类型为其他时,会对数据血缘关系进行编辑,编辑之后需要提交审批,可在审批模块查看此次修改的具体信息。

使用介绍#

​ 首先选择待解析SQL依赖的数据源,在SQL输入框内输入SQL,单击SQL输入框右上角”解析“按钮即可解析出SQL内包含的血缘信息,血缘类型可能包含数据血缘及主外键关系(此处为SQL内包含的Join关系),可以通过切换血缘类型进行查看。解析之后,点击发布按钮即可提交SQL解析血缘审批。

​ 注:使用此功能解析SQL前,需要确保SQL内包含的元数据已在本系统内存在。

元数据采集#

【元数据管理】-【元数据目录】-【元数据手动补录】介绍了手动添加元数据的方法。但是相比于手动补录方法,元数据的自动采集能够高效、批量、定时定量地追踪并更新元数据的信息和变化情况。

自动采集#

orbit-meta-collect

自动采集页面可以新建和管理一系列采集任务。

任务状态#

每个采集任务有两个状态:“审批状态”和“运行状态”。“审核状态”只有在“已下线”时才能对采集任务进行修改和删除操作,一旦上线,将不能对任务进行修改。与此相反,当任务处于“已上线”状态时,表示任务已经准备好执行。如果该采集任务配置了定时调度,那么“已上线”的作业会按配好的调度周期定时执行。具有执行权限的用户也可以手动触发已上线的任务的单次执行。

采集适配器#

Orbit系统为自动采集提供了四种采集适配器:

  • OushuDB采集适配器:采集OushuDB数据库的元数据

  • Oracle采集适配器:采集Oracle数据库的元数据

  • Wasp采集适配器:采集Wasp数据迁移任务的血缘

  • MySQL采集适配器:采集MySQL数据库的元数据

新建采集任务#

orbit-meta-collect-new

点击“新建任务”,可以进入新建采集任务的页面。

在页面中,需要选择采集适配器,再通过“数据源”菜单选择一个相应类型的数据源。如果在列表中找不到目标数据源,请联系管理员,或在菜单中选择“新建数据源”快速创建一个新数据源进行连接。数据源的详细介绍也可以参照SkyLab【数据源】模块的用户文档。

数据源选定后,需要选择一个具体的采集范围。对于数据库类型的源,采集范围可以精确到模式(Schema)级别。

如果选择的是采集Wasp血缘,则不需要选择具体数据源,而是直接连接Wasp数据工厂进行采集。选择采集范围时选择Wasp任务或文件夹。

如果打开“是否开启”定时开关,可以配置采集任务调度的周期。具体可以选择“时间间隔”的简单配置模式,或“cron表达式”自定义高级调度逻辑。

orbit-meta-collect-time

SQL解析器#

orbit-lineage-sqlparse

​ 可以解析出SQL内包含的数据血缘信息及Join关系,目前版本仅支持OushuDB SQL语法。SQL解析器包含SQL输入框及血缘展示区,SQL输入框支持SQL格式化、撤销编辑、恢复编辑、解析按钮等功能;血缘展示区说明可以参考【元数据管理】-【血缘管理】模块的介绍。