Apache Nutch建议使用http://rdf.dmoz.org/rdf/content.rdf.u8.gz作为Web爬网的种子URL . 但是,他们关闭了网站 . 是否有用于网页抓取的替代种子网址?
我建议看看http://commoncrawl.org . 我认为他们提供了一个非常全面的数据集 .
1 回答
我建议看看http://commoncrawl.org . 我认为他们提供了一个非常全面的数据集 .