首页 文章

简单的网络爬虫速度问题

提问于
浏览
3

我在PHP中创建了一个非常简单的Web爬虫,我在其中抓取一些足球网站以获得匹配结果 .

但是当我抓取一个网站时,抓取它需要大约0.5-1秒 . 因此,如果我要抓取大量网址,则需要花费大量时间 .

这是我抓取网站的代码开始:

$doc = new DOMDocument();
$doc->loadHTMLFile("http://resultater.dai-sport.dk/tms/Turneringer-og-resultater/Pulje-Stilling.aspx?PuljeId=229");
$xpath = new DOMXpath($doc);

我自己创建了爬虫,所以也许有更好的方法来做这个或更快的方法?或许我对速度的期望值很高?

2 回答

  • 0

    请检查此lib以获取爬虫的异步实现 . 它使用"yield",出现在PHP 5.5中:https://github.com/icicleio/Icicle

    您将在库示例中找到用法示例 .

  • 1

    如果你不打算使用任何就绪模块,你做的方式很好,只需确保解析一次url . 这是一个较旧帖子的示例:How do I make a simple crawler in PHP?

    如果您决定测试准备好的模块,请参考http://phpcrawl.cuab.de/这是一个非常好的选择

相关问题