如何通知Nutch避免抓取网站列表

提问于 2024-04-29T21:02:14+08:00

浏览次

0

我正在使用Apache nutch 2.2.1 . 我的爬虫爬行整个网络，即没有应用过滤器 . 我有很少的网站，我希望永远不会被nutch抓取 .

怎么做？

2 回答

1
我想在Apache nutch配置目录中，有一个文件名regex-urlfilter.txt . 这将完成您正在寻找的工作 . 例如，如果您必须阻止网站http://wiki.thm.com，那么您在上面的文件中写下以下内容
```
-^(http|https)://http://wiki.thm.com.*$
```
如需进一步研究Nutch wiki .
回复于 2024-04-29T21:02:14+08:00
1

您是否尝试在配置中输入特定的"seed URLs"，例如http://my.site.to/crawl（用更有用的东西代替）

在/ conf / urls文件夹中应该有一个名为“seed.txt”的配置文件 .

回复于 2024-04-29T21:02:14+08:00

相关问题