Hbase completebulkload卡在AWS EMR上-Java 学习之路

因此，我尝试使用HBase批量加载将一些数据加载到HBase中 . 这是我的堆栈设置：HBase版本1.3.1 Hadoop版本：2.7.3 EMR版本5.10 . 簇大小：20个R4.2xlarge实例 . 我有一个hbase表，它预先拆分为400个区域，HexStringSplit用于行键 . 该表只包含一个列族，并使用lz4压缩算法

然后我尝试使用bulkload将一些数据加载到表中 . 我能够使用import tsv工具在HDFS上生成HFiles，总文件大小约为20 GB .

然后我按如下方式运行“completebulkload”工具：hadoop jar /usr/lib/hbase/lib/hbase-server-1.3.1.jar completebulkload hdfs：/// user / hbase / output MyTable

这里“hdfs：/// user / hbase / output”是导入tsv作业的输出目录 .

这个过程开始但卡住了，我只看到以下输出：

17/12/05 19:49:22 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://ip-172-31-19-197.ec2.internal:8020/user/hbase/output/_SUCCESS
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]

没有打印进一步的信息 . 已经差不多1小时但仍然没有 . 我检查了HBase UI，但尚未加载任何内容 . 所有地区都是空的 .

有什么想法吗？

谢谢

Hbase completebulkload卡在AWS EMR上

相关问题