
一. 大数据概述
1. 大数据的概念
大数据(Big Data) 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才
能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
解决的问题
海量数据的存储和海量数据的分析计算问题。
数据存储单位
bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T
2 .大数据的特点
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大
约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量
级。
种类(Variety):数据类型的多样性;
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/
文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信
息等,这些多类型的数据对数据的处理能力提出了更高要求。
速度(Velocity):指获得数据的速度;
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全
球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
真实性(Veracity):数据的质量。数据真实性低。
淘宝刷单
价值(value):合理运用大数据,以低成本创造高价值。价值密度低
3. 大数据的应用场景
数据处理的最典型应用:公司的产品运营情况分析
电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐
结论,以供电商网站页面来为用户进行商品推荐
精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各
种属性标签),然后可以为广告主进行有针对性的精准的广告投放
前景:
4. 大数据技术点
存储框架
HDFS——分布式文件存储系统(Hadoop中的存储框架)
HBase——分布式数据库系统
Kafka——分布式消息缓存系统(实时流式数据处理场景中应用广泛)
ElasticSearch—— 分布式的搜索引擎
计算框架
要解决的核心问题就是帮用户将处理逻辑在很多机器上并行
MapReduce—— 离线批处理/Hadoop中的运算框架
Spark —— 离线处理/微批处理
Storm —— 实时流式计算
Flink—— 离线处理/微批处理/实时流处理
Blink—— 与Flink类似【国产】
辅助类的工具
Hive —— 数据仓库工具:可以接收sql,翻译成MapReduce或者Spark程序运行
Flume——用于数据采集
Sqoop——数据迁移,ETL工具
Kibana——数据分析和可视化
Logstash——数据收集工具
等等……还有很多框架