首页 文章
  • 0 votes
     answers
     views

    OSX上的Python3到MySQL连接... ImportError:原因:找不到图像

    我目前正在尝试使用scrapy运行代码来搜索网站,然后将数据写入MySQL . 我一直在寻找如何解决我的问题的几个小时,但是当我运行它时出现以下错误: 文件“/Users/USER/anaconda/lib/python3.5/site-packages/MySQLdb/init.py”,第19行,在模块中导入_mysql ImportError:dlopen(/Users/USER/anaco...
  • 0 votes
     answers
     views

    启动Scrapy项目时出错[关闭]

    当我试图开始scrapy时,我得到了这个错误 . 为什么会出现? $ scrapy startproject tutorial Traceback(最近一次调用最后一次):文件“/ Applications / anaconda / bin / scrapy”,第5行,来自pkg_resources import load_entry_point文件“/Applications/anaconda...
  • 1 votes
     answers
     views

    在2个本地Ubuntu实例上运行2个RabbitMQ worker和2个Scrapyd守护进程,其中一个rabbitmq worker不工作

    我目前正致力于构建"Scrapy spiders control panel",我正在测试[分布式多用户Scrapy蜘蛛控制面板] https://github.com/aaldaber/Distributed-Multi-User-Scrapy-System-with-a-Web-UI上提供的现有解决方案 . 我试图在我的本地Ubuntu开发机器上运行它,但有 scrapd ...
  • -1 votes
     answers
     views

    试图运行Scrapy

    我正在尝试运行Scrapy并遇到以下错误 . 似乎Scrapy找不到TheTwisted 10.0.0 - 我已经下载了它但不知道放置文件夹的位置 . 谢谢! 回溯(最近一次调用最后一次):文件"/usr/local/bin/scrapy",第5行,来自pkg_resources import load_entry_point文件“/System/Library/Framew...
  • 7 votes
     answers
     views

    Scrapy输出提供国际unicode字符(例如日语字符)

    我是python和scrapy的新手,我正在关注dmoz教程 . 作为教程建议的起始URL的一个小变体,我从dmoz示例站点中选择了一个日语类别,并注意到我最终获得的feed导出显示的是unicode数值而不是实际的日语字符 . 看起来我需要以某种方式使用TextResponse,但我不确定如何让我的蜘蛛使用该对象而不是基本的Response对象 . 如何修改我的代码以在输出中显示日语字符? ...
  • 1 votes
     answers
     views

    在Scrapy的单个列表中附加产品名称

    我目前的scrapy蜘蛛根据需要从网站上提取产品名称,但是将每个start_url的提取放在一个单独的 ['product'] 列表中 . 我希望所有start_url提取都放在一个列表中(对于每个相应的类类型:产品,价格等),这样我就可以在将来操作提取时从列表中调用每个产品 Headers . 这是我目前的蜘蛛: from scrapy.spider import BaseSpider fr...
  • 0 votes
     answers
     views

    Python Scrapy:将属性传递给解析器

    我是Scrapy和网络抓狂的新手,所以这可能是一个愚蠢的问题,但这不是第一次这样 . 我有一个简单的Scrapy蜘蛛,基于教程示例,处理各种URL(在start_urls中) . 我想对网址进行分类,例如URL A,B和C是类别1,而URL D和E是类别2,然后当解析器处理每个URL的响应时,能够将类别存储在结果项上 . 我想我可以为每个类别设置一个单独的蜘蛛,然后只需将类别作为属性保存在类中,这...
  • 1 votes
     answers
     views

    Scrapy和xpath抓取我的网站并导出网址 - 我做错了什么?

    我正在尝试设置一个基本的Scrapy来抓取我的网站并提取我网站的所有页面网址 . 我认为这很容易 . 这是我的items.py,从教程中复制: from scrapy.item import Item, Field class Website(Item): name = Field() description = Field() url = Field() 这是我的Spi...
  • 0 votes
     answers
     views

    为什么我的scrapy ItemLoader失败了?

    我有一个非常简单的网络蜘蛛爬行一些football team data . 到目前为止,我只对页面顶部的一些元数据感兴趣 . 我尝试使用scrapy ItemLoader从页面中检索数据 . 但它不起作用 . 只有我能得到第一个领域 . 我错过了什么? ft = FootballTeamItem() sel = Selector(text = response.text) head...
  • 0 votes
     answers
     views

    用cron运行scrapy crawl并保存到mongodb

    我正在运行一个scrapy蜘蛛来使用cron job和mongodb来搜索网站 . 当我运行常规scrapy爬行时,它可以工作并保存到mongodb . 但是,当我使用cron运行它时,它不会保存到数据库 . 日志输出显示常规爬网结果,只显示它不保存到mongodb . 我在这里错过了什么?我的猜测是它与scrapy的环境有关,因为我可以在单个蜘蛛中使用mongo save()并获得所需的结果,但...
  • 232 votes
     answers
     views

    无法在Mac OS x 10.9上安装Lxml

    我想安装Lxml,然后我可以安装Scrapy . 当我今天更新我的Mac时它不会让我重新安装lxml,我收到以下错误: In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/...
  • 0 votes
     answers
     views

    scrapy xpath无法获取值

    我有一个网站,我想保存两个span元素值 . 这是我的HTML代码的相关部分: <div class="box-search-product-filter-row"> <span class="result-numbers" sth-bind="model.navigationSettings.showFilter&qu...
  • 0 votes
     answers
     views

    使用Scrapy响应,XPath元素不存在,尽管Google Chrome Inspect Element显示它确实存在

    我遇到一个问题,根据Scrapy响应,我尝试使用他们的XPath选择的元素不存在 . 但是,当我在Google Chrome上检查同一页面时,该元素已存在 . 在使用LinkedIn高级搜索并进入结果页面后,LinkedIn问题正在发生 . 我想在结果容器中刮取链接 . 例如:在搜索“John”的结果页面上,根据Google Chrome上的Inspect Element,应该有一个id =“re...
  • 1 votes
     answers
     views

    Xpath一次从子节点和当前节点中选择文本

    我正在使用scrapy,我到了这一点,我想从列表中提取具有以下HTML结构的文本: u'<div id="someId">' u'<p><strong>Text1:</strong> next to text 1</p>' u'<p><strong>Text2:</strong> n...
  • 3 votes
     answers
     views

    使用XPath 1.0提取文本与正则表达式匹配的URL

    我想在Scrapy中使用XPath提取此类型的URL(链接文本是一个带有任意数字的数字,而href是一个随机文本) . <a href="http://www.example.com/link_to_some_page.html>3</a> <a href="http://www.example.com/another_link-abcd....
  • 2 votes
     answers
     views

    通过包含scrapy python中的javascript的div的xpath废弃数据

    我正在研究scrapy,我正在抓一个网站并使用 xpath 刮取物品 . 但是有些 div 包含 javascript ,所以当我使用xpath直到包含javascript代码的 div id 返回一个空列表,并且不包含div元素(包含javascript)时能够获取HTML数据 HTML代码 <div class="subContent2"> &lt...
  • 0 votes
     answers
     views

    当使用xpath从表中提取元素时,Scrapy返回null输出

    我一直试图 grab 这个有科罗拉多州油井细节的网站https://cogcc.state.co.us/cogis/FacilityDetail.asp?facid=12307555&type=WELL Scrapy刮擦网站,并在我刮掉网站时返回网址,但是当我需要使用XPath(油井县)提取表格内的元素时,我得到的只是一个空输出,即[] . 对于我尝试在页面中访问的任何元素,都会发生这种情...
  • 1 votes
     answers
     views

    如何使用XPath选择非空段?

    我想要刮的网页有类似的结构 . 每个都有一个段落,它是一个问题,一个段落是一个答案 . 我想 grab 每个问题并回答并将它们存储在两个项目中 问题是在某些页面上,问题和答案分别是 //xxx/p[1] 和 //xxx/p[2] ,但在其他页面上, //xxx/p[1] 是一个没有任何文本的空段落,用作额外的空格 . 对于这些页面, //xxx/p[1] 不会给我我想要的东西 . 那么是否有一个X...
  • 1 votes
     answers
     views

    使用Xpath轴提取前一个元素

    我正在尝试使用以下结构从网站上抓取数据 . 我想在每个 <li id="entry"> 中提取信息,但是这两个条目也应该从 <li id="category"> / <h2> 中提取类别信息 <ul class="html-winners"> <li id="cate...
  • 0 votes
     answers
     views

    无法从eBay中提取XPath元素 - 用于Scrapy项目

    编辑:我意识到我登录到我的电脑上的ebay,它显示了一个不同的布局到我的服务器运行scrapy . 我目前正在开发一个使用Scrapy 0.18(python 2.6.6)的项目来从eBay中搜集一些产品列表信息 . 我已经能够提取除运费之外的所有元素,我已经在scrapy shell中尝试了许多不同的Xpath变体,我只是无法提取信息,我无法弄清楚原因 . 我使用Xpath chrome扩展来...
  • 0 votes
     answers
     views

    Xpath通配符

    我正在使用scrapy来抓取一些内容,但我遇到了xpaths的麻烦,具体来说,我试图找到这个部分: div class = "app_content_section shorten-enable" (图片中的倒数第二行) 我发现有时scrapy不喜欢firebug给出的xpath . 因此,在我的python脚本中,我执行以下操作: sel.xpath('//*[contain...
  • 1 votes
     answers
     views

    Scrapy Python spider无法使用LinkExtractor或手动Request()查找链接

    我正在尝试编写一个Scrapy蜘蛛,它爬过域中的所有结果页面:https://www.ghcjobs.apply2jobs.com... . 代码应该做三件事: (1)通过所有页面1-1000爬网 . 这些页面是相同的,除了区分URL的最后部分:&CurrentPage =# . (2)跟踪结果表中包含职位发布的每个链接,其中链接的class = SearchResult . 这些是表中唯一的链接...
  • -1 votes
     answers
     views

    Scrapy无法识别Firebug列出的“tbody”和“ul”元素

    我正在尝试提取此mailing list的每个 Headers ,同时注册每个线程有多少回复 . 根据Firebug,包含所有 Headers 的 <ul> 的Xpath是: / html / body / table [2] / tbody / tr1 / td [2] / table / tbody / tr / td / ul 但是,如果我将它直接粘贴到Scrapy Shel...
  • 1 votes
     answers
     views

    无法使用scrapy刮取结果列表中的数据

    我目前正试图在这个page上刮掉汽车的链接 . 我在chrome控制台上运行了这个xpath命令,以返回每辆车的链接 $x('//div[@class="vehicle-make-model"]/h3/a/@href') 但是,当我尝试使用相同的xpath时,在使用scrapy shell命令时,它不会返回任何链接 . 这是我为scrapy shell命令运行的代码 resp...
  • 0 votes
     answers
     views

    使用XPath从超链接中提取文本

    我使用Python和Xpath来刮掉Reddit . 目前我在头版工作 . 我试图从其首页提取链接并在shell中显示它们的 Headers . 为此,我使用Scrapy框架 . 我正在Scrapy shell中测试它 . 我的问题是:如何从 <a> ABC </a> 属性中提取文本 . 我想要字符串"ABC" . 我找不到它了 . 我尝试了以下表达式...
  • 3 votes
     answers
     views

    Scrapy DEBUG:抓取(200)

    我正在尝试使用Scrapy和XPath选择器来抓取网页 . 我已经使用chrome测试了我的XPath选择器 . 看来我的蜘蛛爬行零页并刮掉0个项目 . 我该怎么做才能纠正它?我从抓取中获得以下输出: $ scrapy crawl stack 2015-08-24 21:11:55 [scrapy] INFO: Scrapy 1.0.3 started (bot: stack) 2015-08-2...
  • 1 votes
     answers
     views

    Scrapy Xpath输出为空

    我想在这个网站上提取数据:http://www.pokepedia.fr/Pikachu我'm learning the python and how to use Scrapy and my problem is : Why I can'吨用Xpath检索数据? 当我在浏览器中测试xpath时,我的Xpath看起来很好,它会返回正确的值 . (谷歌浏览器) import re from scr...
  • 0 votes
     answers
     views

    Scrapy在shell中工作但蜘蛛返回空csv

    我正在学习Scrapy . 现在我只是尝试擦拭物品,当我打电话给蜘蛛时: planefinder]# scrapy crawl planefinder -o /User/spider/planefinder/pf.csv -t csv 它显示技术信息,没有抓取内容(抓取0页......等),它返回一个空的csv文件 . 问题是当我在scrapy shell中测试xpath时它可以工作: >...
  • 0 votes
     answers
     views

    scrapy response.xpath无法提取表字段的文本,但是selenium find_find_elements_by_xpath()可以

    我试图在网页中的 <td></td> 中抓取文本,它是xpath: //table[@id = 'sth']/tbody/tr[2]/td[2] . 我用 selenium 访问该页面 . 但问题是当我使用 response.xpath('//table[@id = 'sth']/tbody/tr[2]/td[2]/text()').extract_first() 或 r...
  • 0 votes
     answers
     views

    scrapy Xpath查询选择输入标记元素(赏金)

    我正在使用scrapy crawl spider并尝试解析输出页面以选择所有输入标记参数,如下所示: 输入类型:必须是(文本或密码或文件) 输入id:如果找不到,请选择[输入名称] . 我在scrapy shell中测试了一个示例代码,但它没有给我确切的结果,所以,你能帮助我吗? 测试网站:http://testaspnet.vulnweb.com/Signup.aspx >&g...

热门问题