# 目录监听同步任务创建指南 本章节介绍如何创建监听文件目录抽取文件,按照 CSV/JSON 格式解析后 upsert 到 OushuDB 的任务,下面用 HDFS->OushuDB 举例 该模式不仅会抽取当前选中的文件/目录下的内容,还会定时扫描目录捕获新增文件并抽取。 ## 前提 1. 已添加 HDFS 数据源,保证数据源的连通性,注意 HDFS 数据源中"工作目录"的指定,这将指定数据集成时可选的文件根目录。 2. 已添加 OushuDB 数据源,保证数据源的连通性,访问用户有必要权限。 ## 任务创建流程 1. 创建元数据 在**数据源**模块编辑已添加的 HDFS 数据源,添加元数据。元数据的创建和管理,详情请见[数据源使用手册](../../../../dataend/zh/dataend-user-guide.md)中的“元数据管理”章节 ![image](metadata.png) 2. 创建数据集成任务 选择数据源,接着选择模式,这里我们选择目录监听同步模式,该模式将会监听选中的目录,如果有文件新增,则会抽取该文件。在此模式下依然 可以选择文件或者目录,只是会监听目录捕获新增文件,而不能抓到文件中新增的内容。测试连接通过后进入到下一步选择处理对象 ![image](../../images/integration/task-mode-foldermonitor.png) 高级配置: * 更新频率,影响写入目标的频率和记录 checkpoint 的频率,适当增加该值可以增加吞吐量。 * 并行度,即并发读取/写入。 * 忽略首行数据,勾选后读取每个文件时都会跳过首行。 * 编码格式,当前仅开放 UTF-8 * 目录监听间隔,配置定时监听目录的时间间隔,单位:秒。 ![image](config.png) 3. 选择处理对象 这里每个文件/目录对应一个元数据,勾选文件/目录后需要选择不同类型的元数据,这里支持 JSON 和 CSV 类型的元数据。 ![img.png](select_objects.png) 值得注意的是:对于 CSV 元数据,需要填写分隔符 4. 选择数据目标 选择一个 OushuDB 数据目标。 ![image](../selected_oushu_sink.png) 5. 配置列映射 在这里,您可以指定某个元数据对应的表要导入到某张目标表,是否是已有表/自动建表等,如果是自动建表需要手动配置主键。 点击“列映射”可以配置源表到目标表的列对应关系、名称、主键、类型等。 详情请见[使用指南](../../wasp-user-guide.md)中的“创建任务-列映射”章节。 至此,一个从 HDFS 抽取,并且监听目录新增文件,按照 CSV/JSON 格式解析后,upsert 导入到 OushuDB 的数据集成任务就创建完成了。 ### 返回 [使用指南](../../wasp-user-guide.md)