0. 大数据技术演变史(来自通信院)

1. 起源:Google的三驾马车
1.1 GFS
1.2 BigTable
1.3 MapReduce
2. 开源大数据文件、对象、块存储
2.1 分布式文件系统:HDFS、Ceph、GlusterFS、Lustre
2.2 分布式缓冲文件系统:Alluxio、JuiceFS
2.3 对象存储:OZone、SeaweedFS、MinIO
3. 数据库技术
3.1 列式数据库:HBase、Cassandra
3.2 OLAP数据库:Hive、Doris、Kylin、Clickhouse
3.3 HTAP数据库:TiDB
3.4 图数据库:Neo4j、ArangoDB
3.5 文档数据库:MongoDB
3.6 KV数据库:Redis
3.7 时序数据库:Prometheus、Influxdb、Druid
3.8 日志消息队列:Kafka、Pulsar
3.9 搜索引擎:Elasticsearch、Solr、Lucene
4. 资源管理
4.1 Yarn
4.2 Kubernetes
4.3 Slurm
5. 计算框架
5.1 MapReduce
5.2 Spark
5.3 Flink
5.4 PyTorch
5.5 Tensorflow
6. 分布式协调服务
6.1 Zookeeper
6.2 Raft
7. 文件存储格式
7.1 Avro
7.2 Snappy
7.2 Parquet
8. 集群管理
8.1 Ambari
9. 数据集成
9.1 DataX
9.2 Flume
9.3 InLong
10. 数据可视化
10.1 Superset
10.2 ECharts、Highcharts
11. 任务调度
11.1 Airflow
11.2 NiFI
11.3 DolphinScheduler
12. 元数据管理
12.1 Altas
12.2 WhereHows
13. AI平台
13.1 Submarine
13.2 Kubeflow
14. 数据安全
14.1 隐私计算:CrypTen、FedAI
14.2 数据脱敏:Privacy
14.3 身份认证:CAS、Kerberos
14.4 权限管理:Ranger
15. 数据湖
15.1 Delta
15.2 Iceberg
15.3 Hudi
16. 分布式数据查询引擎
16.1 Presto
16.2 Impala
版权声明:本文为amuseme_lu原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。