1. 修改配置
采集的配置文件添加如下,我这里用的HDFSWritter。
"defaultFS": "hdfs://${nameservice命名空间}",
"hadoopConfig":{
"dfs.nameservices": "${nameservice命名空间}",
"dfs.ha.namenodes.${nameservice命名空间}": "${namenode1的逻辑名称},${namenode2的逻辑名称}",
"dfs.namenode.rpc-address.${nameservice命名空间}.${namenode1的逻辑名称}": "${namenode1的主机名称}:8020",
"dfs.namenode.rpc-address.${nameservice命名空间}.${namenode2的逻辑名称}": "${namenode2的主机名称}:8020",
"dfs.client.failover.proxy.provider.${nameservice命名空间}": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
},
注意:nameservice命名空间、namenode1的逻辑名称、namenode2的逻辑名称 必须与 hdfs-site.xml文件的配置一样。
2. 添加依赖
添加依赖,直接执行会报Hadoop很多类找不到,所以要将CDH上 hadoop的一些依赖拷贝到datax的lib目录下,可以拷贝也可以软连接。
hadoop-hdfs-2.6.0-cdh5.5.0.jar
hadoop-auth-2.6.0-cdh5.5.0.jar
hadoop-core-2.6.0-mr1-cdh5.5.0.jar
hadoop-common-2.6.0-cdh5.5.0.jar
protobuf-java-2.5.0.jar
javax.servlet-api-3.1.0.jar
log4j-1.2.17.jar
注意:这里的版本是我CDH的版本,如果版本不对,也会导致出问题。比如hadoop-*的这些包,因为我用了-2.5.0-cdh5.3.3就会出问题,
后来改了版本才行。
3. 添加配置文件
将hdfs-site.xml、core-site.xml、hive-site.xml 这三个文件丢到hdfswriter-0.0.1-SNAPSHOT.jar里面。对于这3个文件可以在
CDH的管理页面找到hive->配置页->(右上角下来菜单)客户端配置下载。
版权声明:本文为qq285016127原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。