浅谈数据库,数据仓库,数据中台

数据库,数据仓库,数据中台这些关于数据的概念性的东西,对于初学者来讲,非常容易混淆。

在使用计算机的过程中,我们经常会遇见需要进行数据存储的场景,比如,通讯录数据,进销存数据。在数据量不是特别大的时候,我们通常采用excel文件形式、txt文件、word文档等形式来存储数据。当数据量越来越大时,这种个人常用的数据存储方式会变得不太方便更新,不方便查询等,因此,需要一种数据管理工具,对这些零散的数据进行管理。

一、数据库

数据库以一定的方式将数据存储在一起的、能提供给多个用户共享的数据集合。它给用户提供了另外一种数据管理的方式,它能根据用户需求,将数据按照一定的规律进行存储。如果将前面讲到的通讯录比喻成一本书,那么数据库就是电子化的书柜,给用户提供便捷的增删查改等操作。常见的数据库关系型数据库有mysql,sqlserver,db2等;

二、数据仓库

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合。相对于数据库来讲,数据仓库存储的数据针对性更强,且一般不太更新,而是对历史数据进行累积,所以,它的另一特性就是可以反应数据的历史变化。

面向主题的(Subject Oriented):在较高层次上将企业信息系统中数据进行综合、归类分析利用。属于一个抽象概念,每一个主题基本对应一个宏观分析领域。主题(Subject)是对应企业中某一宏观分析领域所涉及的分析对象(重点是分析的对象,对象,仔细理解一下对象的含义)。

例如:"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象为商品、供应商、顾客、仓库等,那么数仓主题可以确定为商品主题、供应商主题、顾客主题、仓库主题;联系到下文"销售分析"可以作为一个主题域;如果"产品分析"是一个分析领域,"产品分析"所涉及到的分析对象为商品、地域、时间、类别等,那么数仓的主题确定为商品主题、地域主题、时间主题、类别主题,"产品分析"可以作为一个主题域

集成的(Integrate):数据仓库中存储的数据大部分来源于传统的数据库,但并不是将原有数据简单的直接导入,而是需要进行预处理。

这是因为事务型数据中的数据一般都是有噪声的、不完整的和数据形式不统一的。这些“脏数据”的直接导入将对在数据仓库基础上进行的数据挖掘造成混乱。“脏数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。

数据集成是数据仓库建设中最重要,也是最为复杂的一步。

相对稳定的(Non-Volatile):数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。即数据保存到数据仓库后,用户仅能通过分析工具进行查询和分析,而不能修改。数据的更新升级主要都在数据集成环节完成,过期的数据将在数据仓库中直接筛除。

反映历史变化(Time Variant):数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。意思就是历史数据都是累加的,不断变多。

数据仓库系统的主要应用是OLAP,支持复杂的数据分析,侧重决策支持,并且提供直观易懂的查询结果,可做到业务的历史快照,总结性数据以及高纬度分析。

三、数据中台

相较于数据库和数据仓库的发展历史,数据中台是近些年由阿里巴巴提出的一个概念,是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的,它既要满足业务部门日常性的多个业务前台的数据需求,又要满足像双十一,六一八这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂活动场景业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革。

数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。

数据中台也是数据的集合,但是它的侧重点在于”中台“二字,既不是一个实质性的平台,也不是一个系统,它就是一个中间层,它可以建立在数据库或者数据仓库上。在常见的应用开发场景中,我们的应用架构可以简单概括为下图所示:

当有多个前台都需要访问后台时,比较直接的做法是为每一个前台都匹配一个后台。此时,当业务的越来越多,业务前台也随之增加,那么企业付出的成本也几乎是线性增长的。此外,针对一些比较短期的不定期需求而去做一整套与之匹配的后台,显然也是不够理想的。由此,数据中台诞生了,它是前台和后台的的一个中间层,相当于一个数据API。

 这样的架构可以使得数据返回速度加快,且多个业务前台可以共用一个数据中台,达到了节省资源的作用,在遇到着急的流量需求时,也只需要开发前台即可,为企业的高效、节源提供了另外一种方式。

 


版权声明:本文为u013986335原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。