简介
Apache Flink 是一个分布式流式计算框架,用于处理有边界和无边界数据流上进行有状态的计算,Flink生产环境中以集群的方式部署运行,并能以内存速度和任意规模进行计算。
应用场景
无界和有界数据
任何类型的数据都可以形成一种事件流。数据就是流的体现,比如:淘宝的交易数据,用户登录数据,nginx的日志,网站/APP/小程序与用户产生交互记录等。
数据以是否有边界,被分为: 有界流 和 无界流;
/ | 有界流 | 无界流 |
| 起始值 | 有开始,有结束,范围值 | 有开始,无结束,无休止地产生数据 |
| 计算方式 | 摄取所有数据后再进行计算 | 无界流的数据必须持续处理 |
| 优势 | 所有数据可以被排序,不需要有序摄取 | 处理无界数据通常要求以特定顺序摄取事件,以便能够推断结果的完整性;处理过程无需等待所有数据到达再处理 |
| 其他 | 有界流处理通常被称为批处理 | 日常使用较多 |

支持的部署方式
与第三方框架结合使用
一些比较基本的 Source 和 Sink 已经内置在 Flink 里。 预定义 data sources 支持从文件、目录、socket,以及 collections 和 iterators 中读取数据。 预定义 data sinks 支持把数据写入文件、标准输出(stdout)、标准错误输出(stderr)和 socket。
- Kafka
- Elasticsearch
- RabbitMQ
- JDBC
- Redis
- 其他
版权声明:本文为u011673769原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。