首页 文章

如何将数据从外部源(主要是Restful)引入HDFS? [关闭]

提问于
浏览
0

这是更多与设计相关的问题 . 我是一名java开发人员,也是hadoop大数据世界的新成员;在我的Hortonworks HDP Sandbox中学习hadoop(它是由Hortonworks作为VM提供的单节点伪群集) .

我设计了一个Java restful api,它与我创建的虚拟数据库交互 . api / client将向uri发送一系列“GET”请求,并将结果体存储为本地hortonworks Unix服务器中的表格形式(TSV)文本文件 . 从那里我将copyFromLocal复制到HDFS以进行进一步处理 .

  • 是否有一个开源的hadoop组件设计用于执行此操作,我可以将api设计为Map-Reduce作业,并将reducers数量设置为零吗?我正在寻找更好的选择 .

  • 我可以在Hue / HDP中创建脚本操作或java动作作为oozie-work流程吗?

1 回答

  • 0

    如果您的所有目标都是以TSV的形式将数据从数据库中提取到HDFS,那么使用Sqoop tool可以非常轻松地完成此操作 .

    Sqoop是一个Hadoop生态系统组件,它可以直接连接到您的rdbms数据库,并可以使用自定义分隔符导入表的记录 . 我希望这会简化您的要求的实施 .

相关问题