DMETL是一个具备数据抽取(Extract)、清洗转换(Transform)和装载(Load)功能的通用的数据处理平台。DMETL在传统ETL工具的基础上,集成了数据同步、数据交换、数据质量管理功能,能够为基于数据集成的应用和日常的数据清洗转换工作提供了完整的支持。
DMETL内建了对数据库、消息服务器、文本文件、XML、Excel文件、WebService、LDAP等各种常见数据源的支持。提供可视化的支持拖拽的流程设计器。
基本概念:
- 元数据
在DMETL中元数据主要分为两类:
数据库的数据字典信息(数据库数据源的模式和表结构)
用户使用过程中生成的配置信息,如流程配置、权限配置信息、文件格式信息等
- 元数据库
元数据库指存储DMETL元数据的数据库。DMETL采用关系数据库存储元数据,目前支持DM、Derby以及Oracle数据库。为了方便用户,DMETL内置DM6和Derby数据库用于存储元数据。
- 数据源
DMETL中,数据源对象表示DMETL在数据读取或者写入数据时需要连接的外部数据存储。如数据库、消息服务器等。数据源对象保存了连接到外部数据库存储所需要的参数,如IP地址、用户名密码等信息。
- 数据集
DMETL中,数据集对象定义了数据的格式、结构信息。数据集一般属于某个数据源对象。例如对于数据库数据源,数据库中每张表或者视图就是数据集。对于文本文件,数据集则定义了文件文件的格式信息,如分隔符、编码等。DMETL转换中访问外部数据时一般是需要指定相应的数据集。
- 转换
DMETL中的转换代表一个与数据处理的流程,是由数据读取节点、数据装载节点、数据转换节点以及正确线、错误线组成。
转换一旦开始执行,其中的节点是同时执行的,数据连续的从一个节点流动到另外一个节点,所有数据处理完毕后,转换才停止执行,因此转换也被称为数据流。
- 作业
DMETL中作业一个由作业节点、成功线、失败线、完成线和条件线组成的流程。作业一旦开始执行,其中的节点是按照连接线的顺序执行,只有上一个节点执行完成后,下一个节点才开始,因此可以用于控制转换和其它作业节点的执行顺序和过程,所以作业又被称为控制流。
体系结构
设计转换
DMETL通过转换来完成各种数据处理的任务。转换通常包括三种类型的节点:数据源节点、数据45转换节点、数据目的节点。各个节点之间通过连接线连接,节点的功能是处理(读取、转换、装载)数据,连接线的功能是定义数据、传递数据。