数据库-CDC 任务创建指南#

本章节介绍如何创建以 CDC 模式抽取源数据库的任务,以及注意事项。

我们以 Oracle 作为源,OushuDB 作为目标举例。其他数据库作为源配置 CDC 任务时,也可参考此文章,只是源库侧 CDC 的配置有些不同。

前提#

  1. 源侧开启 CDC 相关配置,详见 CDC配置指南

  2. 已添加 Oracle 数据源,保证数据源的连通性,访问用户有必要权限。

  3. 已添加 OushuDB 数据源,保证数据源的连通性,访问用户有必要权限。

  4. Wasp 侧需要保证,已创建好 Flink 集群并且状态是运行中。

任务创建流程#

  1. 选择数据源

    • 选择一个 Oracle 数据源。

      image

    • 选择任务模式为“实时模式”。

      image

    • 高级配置选择同步历史。
      并行度建议根据具体场景配置,数据量、TPS 要求、Flink 集群可用 slot 数等。 更新频率其实是 Flink checkpoint 的间隔,每次 checkpoint,我们会向目标数据库提交一次。当然,OushuDB 作为目标时,我们做了一些优化,满足一定 batch 时就会提交,所以通常这个配置项可配置成您能接收的最大延迟。

      image

    • 测试连接成功后,进行下一步。

  2. 选择处理对象
    根据您的业务需要,您可以选择多个 schema 下的多张表进行 CDC 同步。

    image

  3. 选择数据目标
    选择一个 OushuDB 数据目标。

    image

  4. 配置列映射
    在这里,您可以指定某张源表要导入到某张目标表,是否是已有表/自动建表等,点击“列映射”可以配置源表到目标表的列对应关系、名称、主键、类型等。 详情请见使用指南中的“创建任务-列映射”章节。

至此,一个从 Oracle 通过实时 CDC 的方式抽取并导入到 OushuDB 的数据集成任务就创建完成了。

返回 使用指南#