首页 文章

为什么映射输出记录和减少hadoop计数器中的输入记录是不同的?

提问于
浏览
0

我在hadoop中运行一个单词计数工作我的问题是为什么映射输出记录和减少hadoop计数器中的输入记录是不同的?请看下面的图片
enter image description here

2 回答

  • 0

    根据“组合输出记录”计数器,您的工作似乎使用了组合器 . 这就解释了为什么“减少输入记录”不等于“映射记录” .

    通过将100M记录缩减到几百个,组合器相当有效 .

    最有可能的是,您将问为什么“组合输入记录”不等于“映射输出记录”以及为什么“组合输出记录”不等于“记录输入记录” . 解释是组合器可以多次运行,这意味着你“几乎”数次计算相同的数据(这里你可以观察到541额外的输入记录等于677 - 136,但不保证这两个数字总是比赛)

  • 2

    我发现这个原因我在代码中使用了一个组合器类

相关问题