Apache Flink 分布式流式计算框架简介(一)

简介

        Apache Flink 是一个分布式流式计算框架,用于处理有边界无边界数据流上进行有状态的计算,Flink生产环境中以集群的方式部署运行,并能以内存速度和任意规模进行计算。

应用场景

无界和有界数据

任何类型的数据都可以形成一种事件流。数据就是流的体现,比如:淘宝的交易数据,用户登录数据,nginx的日志,网站/APP/小程序与用户产生交互记录等。

数据以是否有边界,被分为:  有界流  和 无界流;

/

有界流

无界流

起始值

有开始,有结束,范围值

有开始,无结束,无休止地产生数据
计算方式摄取所有数据后再进行计算无界流的数据必须持续处理
优势所有数据可以被排序,不需要有序摄取处理无界数据通常要求以特定顺序摄取事件,以便能够推断结果的完整性;处理过程无需等待所有数据到达再处理
其他有界流处理通常被称为批处理日常使用较多

支持的部署方式

与第三方框架结合使用

一些比较基本的 Source 和 Sink 已经内置在 Flink 里。 预定义 data sources 支持从文件、目录、socket,以及 collections 和 iterators 中读取数据。 预定义 data sinks 支持把数据写入文件、标准输出(stdout)、标准错误输出(stderr)和 socket。

  • Kafka
  • Elasticsearch
  • RabbitMQ
  • JDBC
  • Redis
  • 其他

Flink中文介绍


版权声明:本文为u011673769原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。