我需要用Python编写的好的Web爬虫将完整的页面存储到mysql数据库中 . 我正在试验的小系统现在使用PHP Sphider来爬行并存储到数据库中 . 我需要的东西几乎与sphider一样,但是用Python编写 . 所以只需将数据库存储到表中,从其他脚本获取内容并完成我需要的其余工作 . Sphider很慢,想要更换它 .
所以,我看看scrapy和其他一些项目,但是在我开始编码之前,这是我的最后一次尝试,所以如果有人知道什么可以解决我这个问题请告诉我 .
BeWARE!
这个答案专为初学者量身定制,不是最佳或最聪明的 .
但对你而言,我强烈推荐scrapy . 试试教程 . 并且 remember 使用Firefox Firebug扩展为您导航和学习后验解析器的数据的内部路径,xpath和html位置 .
检查类似的答案“Going from Ruby to Python crawlers " and " Python read my outlook email mailbox and parse messages”
节省您的时间并使用Firefox和FireBug扩展(启用 inspect )
inspect
1 回答
BeWARE!
这个答案专为初学者量身定制,不是最佳或最聪明的 .
但对你而言,我强烈推荐scrapy . 试试教程 . 并且 remember 使用Firefox Firebug扩展为您导航和学习后验解析器的数据的内部路径,xpath和html位置 .
检查类似的答案“Going from Ruby to Python crawlers " and " Python read my outlook email mailbox and parse messages”
节省您的时间并使用Firefox和FireBug扩展(启用
inspect
)