首页 文章

如何通知Nutch避免抓取网站列表

提问于
浏览
0

我正在使用Apache nutch 2.2.1 . 我的爬虫爬行整个网络,即没有应用过滤器 . 我有很少的网站,我希望永远不会被nutch抓取 .

怎么做?

2 回答

  • 1

    我想在Apache nutch配置目录中,有一个文件名regex-urlfilter.txt . 这将完成您正在寻找的工作 . 例如,如果您必须阻止网站http://wiki.thm.com,那么您在上面的文件中写下以下内容

    -^(http|https)://http://wiki.thm.com.*$
    

    如需进一步研究Nutch wiki .

  • 1

    您是否尝试在配置中输入特定的"seed URLs",例如http://my.site.to/crawl(用更有用的东西代替)

    在/ conf / urls文件夹中应该有一个名为“seed.txt”的配置文件 .

相关问题