首页 文章

Apache Nutch Web爬网的种子URL

提问于
浏览
0

Apache Nutch建议使用http://rdf.dmoz.org/rdf/content.rdf.u8.gz作为Web爬网的种子URL . 但是,他们关闭了网站 . 是否有用于网页抓取的替代种子网址?

1 回答

  • 1

    我建议看看http://commoncrawl.org . 我认为他们提供了一个非常全面的数据集 .

相关问题