因此,我尝试使用HBase批量加载将一些数据加载到HBase中 . 这是我的堆栈设置:HBase版本1.3.1 Hadoop版本:2.7.3 EMR版本5.10 . 簇大小:20个R4.2xlarge实例 . 我有一个hbase表,它预先拆分为400个区域,HexStringSplit用于行键 . 该表只包含一个列族,并使用lz4压缩算法

然后我尝试使用bulkload将一些数据加载到表中 . 我能够使用import tsv工具在HDFS上生成HFiles,总文件大小约为20 GB .

然后我按如下方式运行“completebulkload”工具:hadoop jar /usr/lib/hbase/lib/hbase-server-1.3.1.jar completebulkload hdfs:/// user / hbase / output MyTable

这里“hdfs:/// user / hbase / output”是导入tsv作业的输出目录 .

这个过程开始但卡住了,我只看到以下输出:

17/12/05 19:49:22 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://ip-172-31-19-197.ec2.internal:8020/user/hbase/output/_SUCCESS
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]
17/12/05 19:49:23 INFO compress.CodecPool: Got brand-new decompressor [.lz4]

没有打印进一步的信息 . 已经差不多1小时但仍然没有 . 我检查了HBase UI,但尚未加载任何内容 . 所有地区都是空的 .

有什么想法吗?

谢谢