数据库-CDC 任务创建指南
本页目录
数据库-CDC 任务创建指南#
本章节介绍如何创建以 CDC 模式抽取源数据库的任务,以及注意事项。
我们以 Oracle 作为源,OushuDB 作为目标举例。其他数据库作为源配置 CDC 任务时,也可参考此文章,只是源库侧 CDC 的配置有些不同。
前提#
源侧开启 CDC 相关配置,详见 CDC配置指南
已添加 Oracle 数据源,保证数据源的连通性,访问用户有必要权限。
已添加 OushuDB 数据源,保证数据源的连通性,访问用户有必要权限。
Wasp 侧需要保证,已创建好 Flink 集群并且状态是运行中。
任务创建流程#
选择数据源
选择一个 Oracle 数据源。
选择任务模式为“实时模式”。
高级配置选择同步历史。
并行度建议根据具体场景配置,数据量、TPS 要求、Flink 集群可用 slot 数等。 更新频率其实是 Flink checkpoint 的间隔,每次 checkpoint,我们会向目标数据库提交一次。当然,OushuDB 作为目标时,我们做了一些优化,满足一定 batch 时就会提交,所以通常这个配置项可配置成您能接收的最大延迟。测试连接成功后,进行下一步。
选择处理对象
根据您的业务需要,您可以选择多个 schema 下的多张表进行 CDC 同步。选择数据目标
选择一个 OushuDB 数据目标。配置列映射
在这里,您可以指定某张源表要导入到某张目标表,是否是已有表/自动建表等,点击“列映射”可以配置源表到目标表的列对应关系、名称、主键、类型等。 详情请见使用指南中的“创建任务-列映射”章节。
至此,一个从 Oracle 通过实时 CDC 的方式抽取并导入到 OushuDB 的数据集成任务就创建完成了。