我正在使用Apache nutch 2.2.1 . 我的爬虫爬行整个网络,即没有应用过滤器 . 我有很少的网站,我希望永远不会被nutch抓取 .
怎么做?
我想在Apache nutch配置目录中,有一个文件名regex-urlfilter.txt . 这将完成您正在寻找的工作 . 例如,如果您必须阻止网站http://wiki.thm.com,那么您在上面的文件中写下以下内容
-^(http|https)://http://wiki.thm.com.*$
如需进一步研究Nutch wiki .
您是否尝试在配置中输入特定的"seed URLs",例如http://my.site.to/crawl(用更有用的东西代替)
在/ conf / urls文件夹中应该有一个名为“seed.txt”的配置文件 .
2 回答
我想在Apache nutch配置目录中,有一个文件名regex-urlfilter.txt . 这将完成您正在寻找的工作 . 例如,如果您必须阻止网站http://wiki.thm.com,那么您在上面的文件中写下以下内容
如需进一步研究Nutch wiki .
您是否尝试在配置中输入特定的"seed URLs",例如http://my.site.to/crawl(用更有用的东西代替)
在/ conf / urls文件夹中应该有一个名为“seed.txt”的配置文件 .