Debezium+Flink+Hudi实时处理MySQ的Binlog日志

为了同时满足大数据量和高时效性的双重要求,实时数仓和在线交互式(ad-hoc)分析技术,及相应的基础组件应运而生,并快速发展。其中包括通用计算引擎(如Spark和Flink),交互式分析系统(如Presto,Druid和ClickHouse),数据湖框架(如Iceberg,Hudi和Delta Lake),和底层存储(如Ozone)。

Debezium

概念:Debezium是一个开源的分布式平台,是一个 CDC(Changelog Data Capture,变更数据捕获)的工具,可以把来自 MySQL、PostgreSQL、Oracle、Microsoft SQL Server 和许多其他数据库的更改实时流式传输到 Kafka 中。 Debezium 为变更日志提供了统一的格式结构,并支持使用 JSON 和 Apache Avro 序列化消息。

在这里插入图片描述

Debezium是一个得到了redhat支持的活跃项目。它基于KafkaConnect构建,并支持SQL和NOSQL数据库,它通过合并SQL info模式和Alter语句来更新已缓存的模式。

由于binlog/WAL不会保留太久,因此


版权声明:本文为u011095039原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。