Kettle教程(一):ETL简介、Kettle安装部署


前言

随着大数据的不断发展,企业级别的数据转换显得尤为重要,从本文开始和大家一起学习一款开源ETL工具–Kettle。


一、ETL

1.ETL是啥?

看看它的全称Extract-Transform-Load,翻译过来就是:抽取-转换-加载,简单来说就是个数据处理的初加工基地,厉害与方便之处就是它可以对多种数据源进行批量的、定时的清洗、加工、转换等处理,然后按照指定的格式输出,可以输出json、excel、csv、数据库等等,画了个图,所以呢,有了ETL就不用手动转化这些数据啦
数据经过ETL转成你想要的格式或库等

2.ETL有啥价值?

ETL通常是企业构件数据仓科的一个重要环节,可以完成数据从数据源向目标数据仓库转化,这样数据再经过处理更容易被整理为信息与知识。
(说白了,它就是数据搬运工,导数据用的)

二、Kettle

1.简介

市面上常用的ETL还是有一些的,收费和免费的这里面有介绍
https://www.cnblogs.com/minong/p/11506949.html
我们这里本着开源和免费的精神,主要介绍的是kettle
废话不多说,先上图
在这里插入图片描述
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出(百度百科),后来改了名字叫PDI ,全称是Pentaho Data Integeration。如果要画图表示,那就是下面这个意思吧。
kettle支持这些左边这些数据源的导入和右边这些数据格式的导出。总的来说,常见的大部分的格式都满足。

在这里插入图片描述

2.安装

上面提过了,kettle是绿色无需安装的,就是下载解压后即可使用(当然,因为是java开发的,需要你提前环境配置JDK1.7及以上才可以哦)

我知道你们最想要的是这个:
下载地址1:
北理镜像http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/

下载地址2:
百度网盘(知识宝贵,打赏5分真不高):
https://download.csdn.net/download/sinat_32573247/12875345

下载地址3:
外网
https://sourceforge.net/projects/pentaho/files/Data%20Integration/
(windows环境中)解压后,根目录下点击spoon.bat
在这里插入图片描述
来看看启动页面,我这里是8.3版本,速度慢的要稍微等等,(这个和个人电脑性能有关,当然参数上也能调整,留给下篇说):
在这里插入图片描述
启动完成,界面还是挺棒的!
在这里插入图片描述

三、总结

以上就是今天要讲的内容,本文仅仅简单介绍了ETL的概念和作用,以及一款开源ETL产品Kettle的简介和开箱。

----依然年轻,依然perfect!


版权声明:本文为sinat_32573247原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。