首页 文章

HDFS配置&用户目录是什么?

提问于
浏览
2

我目前在VM中使用Hadoop“玩游戏”(来自cloudera的CDH4.1.3图像) . 我想知道的是以下内容(文档在这方面并没有真正帮助我) .

在本教程之后,我将首先格式化NameNode - 好的,如果使用了cloudera图像,则已经完成了 . 同样,HDFS文件结构已经存在 . 在hdfs-site.xml中,datanode数据目录设置为:

/var/lib/hadoop-hdfs/cache/${user.name}/dfs/data

这显然是应该在真实的分布式设置中复制块的地方 . 在cloudera教程中,有人告诉我们为每个用户创建hdfs "home directories"( /users/<username> ),我不明白它们的用途 . 它们仅用于单节点设置中的本地测试运行吗?假设我真的有数PB的数据类型不适合我的本地存储 . 这些数据必须立即分发,使本地"home directory"完全无用 .

有人能告诉我,只是为了给我一个直觉,一个真正的Hadoop工作流程如何看起来像大量数据?我一开始会运行什么样的不同节点?

包含's the master (JobTracker) with its slave file (where would I put that) allowing the master to resolve all the DataNodes. Then there is my NameNode that keeps track of where the block IDs are stored. The DataNodes are also carry TaskTracker responsibility. In the config files, the NameNode'的URI - 到目前为止我是否正确?然后在配置中仍然存在 ${user.name} 变量,显然,如果我理解正确的话,它与WebHDFS有关,如果有人能向我解释,那也很好 . 在运行的示例中,方向往往是硬编码的

/var/lib/hadoop-hdfs/cache/1/dfs/data, /var/lib/hadoop-hdfs/cache/2/dfs/data and so on.

所以,回到这个例子:说,我有我的磁带,并希望将数据导入我的HDFS(我需要将数据流传输到文件系统,因为我缺少本地存储将其本地保存在一台机器上) . 我从哪里开始迁移过程?在任意DataNode上?在分配块的NameNode上?毕竟,我不能假设数据只是“在那里”,因为名称节点必须知道块ID .

如果有人能够在短期内详细阐述这些主题,那就太好了:

  • 主页目录是什么?

  • 我首先将数据迁移到主目录,然后迁移到真正的分布式系统吗?

  • WebHDFS如何工作以及它对user.name变量的作用

  • 我如何动态地将"big data"迁移到我的HDFS中 - 或者即使它不是大数据,我如何以适当的方式填充我的文件系统(意味着,块在整个群集中随机分布?

1 回答

  • 5

    主页目录是什么?

    你这里有一点混乱 . 就像/ home存在于Linux上的本地文件系统一样,用户有自己的存储空间,/ users是HDFS(分布式FS)上的家庭装载 . 本教程需要您以管理方式为希望以后运行数据加载和查询的用户创建主目录,以便他们获得对HDFS的足够权限和存储访问权限 . 本教程不要求您在本地创建这些目录 .

    我首先将数据迁移到主目录,然后迁移到真正的分布式系统吗?

    我相信我的上述答案应该为您澄清这一点 . 您应该在HDFS上创建主目录,然后在该目录中加载所有数据 .

    WebHDFS如何工作以及它在user.name变量方面发挥了什么作用

    WebHDFS是访问HDFS的各种方法之一 . 与HDFS通信的常规客户端需要使用Java API . WebHDFS(以及HttpFs)技术被添加到HDFS中,通过为HDFS提供REST前端,让其他语言拥有自己的API集 . WebHDFS允许用户身份验证,以帮助保留权限和安全模型 .

    我如何动态地将“大数据”迁移到我的HDFS中 - 或者即使它不是大数据,我如何以适当的方式填充我的文件系统(意味着,块在整个群集中随机分布?

    HDFS解决的大部分问题是管理数据分发 . 当将文件或数据流加载到HDFS时(通过CLI工具,来自Apache Flume的接收器等),这些块由HDFS本身以理想的分布方式传播,并且块也由它管理 . 您需要做的就是使用用户端的常规FileSystem样式API并忘记底层的内容 - 它们都是为您管理的 .

相关问题