数据准备#

数据准备模块提供了可视化的数据管理、数据分析、数据清洗、数据衍生功能,即使是不具备数据库管理和SQL语言知识的业务人员,也可以用拖拉拽的方式创建一个数据操作流程,并且将结果数据无缝接入创建指标和标签的流程。

数据集#

数据集管理页面#

数据集用来统筹管理“数据准备”模块中使用到的全部数据。在数据集管理页面,用户可以创建、编辑数据集,也可通过修改权限的方式与其他用户协作管理同一个数据集。

dataset_mainpage

如图所示为数据集管理页面,可以通过左上角按名称筛选或排序数据集。每个数据集的方框中,由上至下分别展示了数据集的名称、创建用户、创建时间、数据集内部的对象名称和类型。

每个数据集方框的右上角是三个功能按钮,分别用来编辑名称、设置权限、删除。点击权限按钮,在弹出的权限管理窗口中,可以将当前数据集的读取、编辑、删除等权限赋给其他用户、角色、用户组,从而共享给他人。

数据集详情页面#

在数据集管理页面里点击某个数据集的标题,也会进入相应的详情页面;或点击“添加数据集”按钮,将会新建一个数据集并进入它的管理页面。

详情页面中用列表的形式展示了数据集中所有数据对象的详细信息,包括创建时间、创建人、原始表名等。在其中可以进行筛选、排序、添加、删除等操作。点击其中的数据对象,可以查看这个数据在源数据库中的位置信息。

添加数据对象-文件类型#

要向一个数据集中添加一个 CSV/EXCEL 类型的数据,需要点击数据集详情页面的“添加数据对象”按钮,在弹出窗口中选择“本地导入”,并点击“下一步”。

在“上传文件”栏目中,用户需在本地存储中选择需要上传的CSV或Excel文件并上传。系统会自动识别文件各个字段的字段名称和数据类别,结果会显示在“分析结果”一栏里。如果自动分析结果不理想,还可以手动更新“名称”,“类型”字段。

点击“保存”按钮,平台将会把本地数据导入到数据库,并能在之后的数据处理工作中使用。

添加数据对象-表类型#

从已连接的数据库中添加一个表类型的数据。在新建数据对象窗口中选择数据库集群,并点击”下一步“。在数据表的树状选单中,可以单选或多选需要要添加到数据集中的表,并点击“保存”按钮。可以任意修改数据对象的的名称,例如改成贴合业务内容的中文名称,这种改动不会对源数据库里的表产生影响。

数据对象详情页面#

在数据对象列表页面上,点击名称即可进入数据对象详情页面。在该页面可以查看数据对象的基本属性,包括:名称、类别、数据来源、创建人、创建时间以及储存位置等。同时,还可以进行数据预览,查询表结构以及表数据。

数据工厂#

数据工厂包括强大的数据预处理功能,如:“筛选”、“合并”、“连接”、“衍生”、“去重”、“分组”、“排序‘、”分割“等几十种常见的数据处理功能,可以通过拖拉拽的方式连成数据流程并执行。

数据工厂任务管理#

datafactory_mainpage

在菜单栏点击“数据准备”——“数据工厂”,首先进入的是所有任务的管理页面。页面左侧是存储建模任务的目录结构,右侧是当前目录包含的全部任务,可以根据任务名称和创建日期等条件筛选建模任务。

点击目录右侧的···按钮,会弹出操作菜单,在菜单中进行添加子目录、编辑、删除、设置权限等操作。

点击添加子目录,可以看到新建子目录的弹出框,在该弹出框中可以写目录名称。点击保存按钮之后,可以看到左侧出现了我们刚刚添加的新目录。

若要删除目录,那么会将该目录下面的任务也将一并删除,系统会弹出提示框提醒。

可以用拖拽的方式整理各个文件夹和任务的排布。

点击页面右侧的“新建任务”按钮,将弹出为新任务命名的窗口,系统以“任务+下划线+当前时间”的格式给出了一个默认的建模任务名称,用户可以自行修改名称。点击“确认”按钮,就进入到了数据工厂的画布,我们将在这里打造一个新的任务。

画布介绍#

页面布局#

可视化数据工厂的画布页面主要由四部分组成:

区域①是位于最右侧的菜单,菜单中列出了可视化建模时所有可用到的节点,包括当前用户可以操作的数据集和各种数据处理算子。用按住鼠标并拖动的方式可以直接把需要用到的节点拖动到画布当中。

区域②处于页面中心,是主要的画图区域。

区域③位于页面顶端,是快捷功能栏。位于最右侧的功能按键分别是;展示画布历史记录”,“开始\停止运行”,复制当前画布”。其左侧是节点功能快捷菜单,可以进行选中节点的复制、粘贴、删除,和按名称搜索节点等动作。快捷功能栏还会展示画布的运行时长信息。

区域④位于画布的右下角,是当前画布的缩略图,用于辅助用户快速定位。

画布快捷操作#

  1. 按住画布空白位置并拖动可以移动画布。在缩略图中拖动也能起到同样效果。

  2. 滚轮上下滚动可以调节画布缩放。

  3. 按住ctrl键并在画布中拖动,可以框选多个节点,便于进行批量的移动或删除操作。

节点快捷操作#

  1. 双击一个节点,会弹出新窗口。不同的节点会在弹出的窗口中展示不同的配置项,例如填写判断条件,配置算法参数等。各个节点的原理和配置方法将在接下来的章节中详细介绍。

  2. 下图中的选择组件在可视化建模系统中经常会用到:左侧的表格列出了全部的可选字段,而右侧记录当前已经选中的字段。单击左侧的复选框选中一个字段,被选中的字段就会即时出现在右侧表格中。右侧字段的排列顺序取决于选择的顺序,先选中的会排在前面。也可以拖动字段右侧的按钮进行重新排序。如果源数据字段数量很多,可以通过按关键字筛选、按类型筛选、全选等功能快速定位和选择所需要的字段。

  3. 如果双击一个存储着数据的节点,则会直接预览其中的数据。

  4. 在节点的输出端口处拖动鼠标,拖出一条连线并在画布空白处松手,会弹出快捷菜单用来快速建立下游节点。

  5. 右键点击节点,会弹出当前节点的操作菜单。菜单中“重命名”,“删除”功能可以对当前节点做重命名和删除操作。而“运行至此”、“从此运行”功能用来控制画布的执行逻辑,不是执行整张画布,而是仅执行于当前节点有关系的一部分节点。

  6. 如果已经选中了节点或连线,可以通过退格键Backspace进行删除操作。