首页 文章

如何限制Apache Nutch 2.3.1来抓取故事内容而不是侧边栏

提问于
浏览
0

我必须爬一些新闻网站 . 我已经使用Hadoop 2.7.4和Hbase集群设置了Apache Nache 2.3.1 . 我必须通过solr 6.6.1提供搜索 . 在抓取一些网站后,我发现Nutch抓取了页面中的所有内容 . 在新闻网站中,有侧栏包含最新或最新消息等 . 这些侧边栏内容随时间而变化 . 有没有办法让Nutch抓取主要故事内容并避免这样的边栏 .

1 回答

  • 1

    好吧,因为你使用Nutch 2.x这有点困难,对于Nutch 1.x你可以使用Tika上提供的套管实现 . 但不幸的是,它尚未移植到2.x分支 .

相关问题