kettle连接Hive操作
从Hive中下载数据到excel中
拉出表输入步骤,然后创建一个新的数据库连接,连接上Hive。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EA6dflOj-1570519657880)(D:\学习笔记\kettle\保存图片\kettle连接Hive\01创建新的连接至Hive.jpg)]](https://img-blog.csdnimg.cn/20191008152800567.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4eWR6eXI=,size_16,color_FFFFFF,t_70)
这里第一次连接时报错,怀疑是Hive没启动,后面在node-1上运行hive发现还是不行,然后使用node-3远程连接Hive,再在这进行测试,发现ok。
选取要导出的表,后续的步骤一致了。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fI2pjzMn-1570519657881)(D:\学习笔记\kettle\保存图片\kettle连接Hive\02结果输出.jpg)]](https://img-blog.csdnimg.cn/20191008152811404.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4eWR6eXI=,size_16,color_FFFFFF,t_70)
向Hive中写入数据
将刚刚下载下来的数据写入到test1表中。
首先拉出excel输出和表输入,然后老步骤,不过这里的数据库连接是连接Hive。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r1lemhLF-1570519657884)(D:\学习笔记\kettle\保存图片\kettle连接Hive\03数据写入Hive.jpg)]](https://img-blog.csdnimg.cn/20191008152819383.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4eWR6eXI=,size_16,color_FFFFFF,t_70)
通过Hadoopcopyfiles作业组件把数据加载到hive数据库中
将下面链接下载好的数据上传至Hive中。
<http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000>
- 先在Hive上创建对应的表。
建表语句:
create table pttest.weblogs(
t_ip string,
full_request string,
day string,
month string,
month_num int,
year string,
hour string,
minute string,
second string,
timezone string,
http_verb string,
uri string,
http_status_code string,
bytes_returned string,
referrer string,
user_agent string
)
row format delimited fields terminated by '\t';
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kyhiuznK-1570519657885)(D:\学习笔记\kettle\保存图片\kettle连接Hive\04创建表.jpg)]](https://img-blog.csdnimg.cn/20191008152832407.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4eWR6eXI=,size_16,color_FFFFFF,t_70)
- 然后创建一个作业(这里不是创建转换),使用Hadoop copy file 作业组件。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DFPgWKgr-1570519657885)(D:\学习笔记\kettle\保存图片\kettle连接Hive\05上传数据.jpg)]](https://img-blog.csdnimg.cn/20191008152841959.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4eWR6eXI=,size_16,color_FFFFFF,t_70)
查看结果。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iVZIZ82K-1570519657886)(D:\学习笔记\kettle\保存图片\kettle连接Hive\06作业结果.jpg)]](https://img-blog.csdnimg.cn/2019100815285443.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4eWR6eXI=,size_16,color_FFFFFF,t_70)
执行Hive的SQL语句
创建一个作业,使用核心对象下的脚本里的SQL,连接上Hive,然后执行下面SQL。
SQL语句:
create table pttest.weblogs_agg
as
select t_ip,year,month,month_num,count(*)
from pttest.weblogs
group by t_ip,year,month,month_num;
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Dmya6jtK-1570519657887)(D:\学习笔记\kettle\保存图片\kettle连接Hive\07hiveSQL结果.jpg)]](https://img-blog.csdnimg.cn/20191008152902631.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h4eWR6eXI=,size_16,color_FFFFFF,t_70)
版权声明:本文为xxydzyr原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。