我无法在虚拟框中配置多数据节点集群
不要认为复制因子将其视为1 .
假设我有一个10GB的文件,并且列城市有2个不同的值,我有2个数据节点 .
想要按城市划分数据 .此外,我将在每个分区的2个桶中存储邮政编码 . 我的问题是每个数据节点中是否存在每个分区,或者每个节点只有不同的分区 .
我的理解是每个节点都将拥有所有分区,但在某些节点中,由于数据文件中的值不足,分区可能不存在 . 每个数据节点中的每个分区都将由邮政编码进行分区,并且某些存储桶可能没有值 .
使用目录实现分区 .目录包含文件 . 可能是一个,可能很多 .
使用文件实现Bucketing .存储桶可能与一个文件或多个文件相关 .
文件是从块构建的 . 可能是一个,可能很多 .块驻留在节点内 . 不同的块可能驻留在同一节点或不同节点上 .
底线 -没有任何东西可以将分区/存储桶绑定到特定节点 .
1 回答
使用目录实现分区 .
目录包含文件 . 可能是一个,可能很多 .
使用文件实现Bucketing .
存储桶可能与一个文件或多个文件相关 .
文件是从块构建的 . 可能是一个,可能很多 .
块驻留在节点内 . 不同的块可能驻留在同一节点或不同节点上 .
底线 -
没有任何东西可以将分区/存储桶绑定到特定节点 .