Java 学习之路

0 votes

answers

views

OSX上的Python3到MySQL连接... ImportError：原因：找不到图像

我目前正在尝试使用scrapy运行代码来搜索网站，然后将数据写入MySQL . 我一直在寻找如何解决我的问题的几个小时，但是当我运行它时出现以下错误：文件“/Users/USER/anaconda/lib/python3.5/site-packages/MySQLdb/init.py”，第19行，在模块中导入_mysql ImportError：dlopen（/Users/USER/anaco...

python mysql macos scrapy
0 votes

answers

views

启动Scrapy项目时出错[关闭]

当我试图开始scrapy时，我得到了这个错误 . 为什么会出现？ $ scrapy startproject tutorial Traceback（最近一次调用最后一次）：文件“/ Applications / anaconda / bin / scrapy”，第5行，来自pkg_resources import load_entry_point文件“/Applications/anaconda...

python web-scraping scrapy scrapy-spider
1 votes

answers

views

在2个本地Ubuntu实例上运行2个RabbitMQ worker和2个Scrapyd守护进程，其中一个rabbitmq worker不工作

我目前正致力于构建"Scrapy spiders control panel"，我正在测试[分布式多用户Scrapy蜘蛛控制面板] https://github.com/aaldaber/Distributed-Multi-User-Scrapy-System-with-a-Web-UI上提供的现有解决方案 . 我试图在我的本地Ubuntu开发机器上运行它，但有 scrapd ...

django scrapy rabbitmq scrapyd
-1 votes

answers

views

试图运行Scrapy

我正在尝试运行Scrapy并遇到以下错误 . 似乎Scrapy找不到TheTwisted 10.0.0 - 我已经下载了它但不知道放置文件夹的位置 . 谢谢！回溯（最近一次调用最后一次）：文件"/usr/local/bin/scrapy"，第5行，来自pkg_resources import load_entry_point文件“/System/Library/Framew...

python scrapy pip
7 votes

answers

views

Scrapy输出提供国际unicode字符（例如日语字符）

我是python和scrapy的新手，我正在关注dmoz教程 . 作为教程建议的起始URL的一个小变体，我从dmoz示例站点中选择了一个日语类别，并注意到我最终获得的feed导出显示的是unicode数值而不是实际的日语字符 . 看起来我需要以某种方式使用TextResponse，但我不确定如何让我的蜘蛛使用该对象而不是基本的Response对象 . 如何修改我的代码以在输出中显示日语字符？ ...

python unicode scrapy
1 votes

answers

views

在Scrapy的单个列表中附加产品名称

我目前的scrapy蜘蛛根据需要从网站上提取产品名称，但是将每个start_url的提取放在一个单独的 ['product'] 列表中 . 我希望所有start_url提取都放在一个列表中（对于每个相应的类类型：产品，价格等），这样我就可以在将来操作提取时从列表中调用每个产品 Headers . 这是我目前的蜘蛛： from scrapy.spider import BaseSpider fr...

python list append scrapy
0 votes

answers

views

Python Scrapy：将属性传递给解析器

我是Scrapy和网络抓狂的新手，所以这可能是一个愚蠢的问题，但这不是第一次这样 . 我有一个简单的Scrapy蜘蛛，基于教程示例，处理各种URL（在start_urls中） . 我想对网址进行分类，例如URL A，B和C是类别1，而URL D和E是类别2，然后当解析器处理每个URL的响应时，能够将类别存储在结果项上 . 我想我可以为每个类别设置一个单独的蜘蛛，然后只需将类别作为属性保存在类中，这...

python scrapy
1 votes

answers

views

Scrapy和xpath抓取我的网站并导出网址 - 我做错了什么？

我正在尝试设置一个基本的Scrapy来抓取我的网站并提取我网站的所有页面网址 . 我认为这很容易 . 这是我的items.py，从教程中复制： from scrapy.item import Item, Field class Website(Item): name = Field() description = Field() url = Field() 这是我的Spi...

python xpath web-scraping scrapy
0 votes

answers

views

为什么我的scrapy ItemLoader失败了？

我有一个非常简单的网络蜘蛛爬行一些football team data . 到目前为止，我只对页面顶部的一些元数据感兴趣 . 我尝试使用scrapy ItemLoader从页面中检索数据 . 但它不起作用 . 只有我能得到第一个领域 . 我错过了什么？ ft = FootballTeamItem() sel = Selector(text = response.text) head...

scrapy
0 votes

answers

views

用cron运行scrapy crawl并保存到mongodb

我正在运行一个scrapy蜘蛛来使用cron job和mongodb来搜索网站 . 当我运行常规scrapy爬行时，它可以工作并保存到mongodb . 但是，当我使用cron运行它时，它不会保存到数据库 . 日志输出显示常规爬网结果，只显示它不保存到mongodb . 我在这里错过了什么？我的猜测是它与scrapy的环境有关，因为我可以在单个蜘蛛中使用mongo save（）并获得所需的结果，但...

python mongodb cron scrapy
232 votes

answers

views

无法在Mac OS x 10.9上安装Lxml

我想安装Lxml，然后我可以安装Scrapy . 当我今天更新我的Mac时它不会让我重新安装lxml，我收到以下错误： In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/...

python xcode macos scrapy lxml
0 votes

answers

views

scrapy xpath无法获取值

我有一个网站，我想保存两个span元素值 . 这是我的HTML代码的相关部分： <div class="box-search-product-filter-row"> <span class="result-numbers" sth-bind="model.navigationSettings.showFilter&qu...

python xpath scrapy scrapy-spider
0 votes

answers

views

使用Scrapy响应，XPath元素不存在，尽管Google Chrome Inspect Element显示它确实存在

我遇到一个问题，根据Scrapy响应，我尝试使用他们的XPath选择的元素不存在 . 但是，当我在Google Chrome上检查同一页面时，该元素已存在 . 在使用LinkedIn高级搜索并进入结果页面后，LinkedIn问题正在发生 . 我想在结果容器中刮取链接 . 例如：在搜索“John”的结果页面上，根据Google Chrome上的Inspect Element，应该有一个id =“re...

html google-chrome xpath scrapy
1 votes

answers

views

Xpath一次从子节点和当前节点中选择文本

我正在使用scrapy，我到了这一点，我想从列表中提取具有以下HTML结构的文本： u'<div id="someId">' u'<p><strong>Text1:</strong> next to text 1</p>' u'<p><strong>Text2:</strong> n...

python xpath scrapy
3 votes

answers

views

使用XPath 1.0提取文本与正则表达式匹配的URL

我想在Scrapy中使用XPath提取此类型的URL（链接文本是一个带有任意数字的数字，而href是一个随机文本） . <a href="http://www.example.com/link_to_some_page.html>3</a> <a href="http://www.example.com/another_link-abcd....

python regex xpath lxml scrapy
2 votes

answers

views

通过包含scrapy python中的javascript的div的xpath废弃数据

我正在研究scrapy，我正在抓一个网站并使用 xpath 刮取物品 . 但是有些 div 包含 javascript ，所以当我使用xpath直到包含javascript代码的 div id 返回一个空列表，并且不包含div元素（包含javascript）时能够获取HTML数据 HTML代码 <div class="subContent2"> &lt...

javascript python xpath scrapy
0 votes

answers

views

当使用xpath从表中提取元素时，Scrapy返回null输出

我一直试图 grab 这个有科罗拉多州油井细节的网站https://cogcc.state.co.us/cogis/FacilityDetail.asp?facid=12307555&type=WELL Scrapy刮擦网站，并在我刮掉网站时返回网址，但是当我需要使用XPath（油井县）提取表格内的元素时，我得到的只是一个空输出，即[] . 对于我尝试在页面中访问的任何元素，都会发生这种情...

python xpath web-scraping web-crawler scrapy
1 votes

answers

views

如何使用XPath选择非空段？

我想要刮的网页有类似的结构 . 每个都有一个段落，它是一个问题，一个段落是一个答案 . 我想 grab 每个问题并回答并将它们存储在两个项目中问题是在某些页面上，问题和答案分别是 //xxx/p[1] 和 //xxx/p[2] ，但在其他页面上， //xxx/p[1] 是一个没有任何文本的空段落，用作额外的空格 . 对于这些页面， //xxx/p[1] 不会给我我想要的东西 . 那么是否有一个X...

html xml xpath scrapy
1 votes

answers

views

使用Xpath轴提取前一个元素

我正在尝试使用以下结构从网站上抓取数据 . 我想在每个 <li id="entry"> 中提取信息，但是这两个条目也应该从 <li id="category"> / <h2> 中提取类别信息 <ul class="html-winners"> <li id="cate...

python xpath scrapy
0 votes

answers

views

无法从eBay中提取XPath元素 - 用于Scrapy项目

编辑：我意识到我登录到我的电脑上的ebay，它显示了一个不同的布局到我的服务器运行scrapy . 我目前正在开发一个使用Scrapy 0.18（python 2.6.6）的项目来从eBay中搜集一些产品列表信息 . 我已经能够提取除运费之外的所有元素，我已经在scrapy shell中尝试了许多不同的Xpath变体，我只是无法提取信息，我无法弄清楚原因 . 我使用Xpath chrome扩展来...

python xpath scrapy web-crawler ebay
0 votes

answers

views

Xpath通配符

我正在使用scrapy来抓取一些内容，但我遇到了xpaths的麻烦，具体来说，我试图找到这个部分： div class = "app_content_section shorten-enable" （图片中的倒数第二行）我发现有时scrapy不喜欢firebug给出的xpath . 因此，在我的python脚本中，我执行以下操作： sel.xpath('//*[contain...

xpath firebug scrapy
1 votes

answers

views

Scrapy Python spider无法使用LinkExtractor或手动Request（）查找链接

我正在尝试编写一个Scrapy蜘蛛，它爬过域中的所有结果页面：https://www.ghcjobs.apply2jobs.com... . 代码应该做三件事：（1）通过所有页面1-1000爬网 . 这些页面是相同的，除了区分URL的最后部分：＆CurrentPage =＃ . （2）跟踪结果表中包含职位发布的每个链接，其中链接的class = SearchResult . 这些是表中唯一的链接...

python regex scrapy web-crawler
-1 votes

answers

views

Scrapy无法识别Firebug列出的“tbody”和“ul”元素

我正在尝试提取此mailing list的每个 Headers ，同时注册每个线程有多少回复 . 根据Firebug，包含所有 Headers 的 <ul> 的Xpath是： / html / body / table [2] / tbody / tr1 / td [2] / table / tbody / tr / td / ul 但是，如果我将它直接粘贴到Scrapy Shel...

xpath scrapy mailing-list scrapy-shell
1 votes

answers

views

无法使用scrapy刮取结果列表中的数据

我目前正试图在这个page上刮掉汽车的链接 . 我在chrome控制台上运行了这个xpath命令，以返回每辆车的链接 $x('//div[@class="vehicle-make-model"]/h3/a/@href') 但是，当我尝试使用相同的xpath时，在使用scrapy shell命令时，它不会返回任何链接 . 这是我为scrapy shell命令运行的代码 resp...

python xpath web-scraping scrapy
0 votes

answers

views

使用XPath从超链接中提取文本

我使用Python和Xpath来刮掉Reddit . 目前我在头版工作 . 我试图从其首页提取链接并在shell中显示它们的 Headers . 为此，我使用Scrapy框架 . 我正在Scrapy shell中测试它 . 我的问题是：如何从 <a> ABC </a> 属性中提取文本 . 我想要字符串"ABC" . 我找不到它了 . 我尝试了以下表达式...

python html xpath scrapy
3 votes

answers

views

Scrapy DEBUG：抓取（200）

我正在尝试使用Scrapy和XPath选择器来抓取网页 . 我已经使用chrome测试了我的XPath选择器 . 看来我的蜘蛛爬行零页并刮掉0个项目 . 我该怎么做才能纠正它？我从抓取中获得以下输出： $ scrapy crawl stack 2015-08-24 21:11:55 [scrapy] INFO: Scrapy 1.0.3 started (bot: stack) 2015-08-2...

python xpath web-scraping scrapy scrapy-spider
1 votes

answers

views

Scrapy Xpath输出为空

我想在这个网站上提取数据：http://www.pokepedia.fr/Pikachu我'm learning the python and how to use Scrapy and my problem is : Why I can'吨用Xpath检索数据？当我在浏览器中测试xpath时，我的Xpath看起来很好，它会返回正确的值 . （谷歌浏览器） import re from scr...

python xpath web-scraping scrapy
0 votes

answers

views

Scrapy在shell中工作但蜘蛛返回空csv

我正在学习Scrapy . 现在我只是尝试擦拭物品，当我打电话给蜘蛛时： planefinder]# scrapy crawl planefinder -o /User/spider/planefinder/pf.csv -t csv 它显示技术信息，没有抓取内容（抓取0页......等），它返回一个空的csv文件 . 问题是当我在scrapy shell中测试xpath时它可以工作： >...

shell csv scrapy
0 votes

answers

views

scrapy response.xpath无法提取表字段的文本，但是selenium find_find_elements_by_xpath（）可以

我试图在网页中的 <td></td> 中抓取文本，它是xpath： //table[@id = 'sth']/tbody/tr[2]/td[2] . 我用 selenium 访问该页面 . 但问题是当我使用 response.xpath('//table[@id = 'sth']/tbody/tr[2]/td[2]/text()').extract_first() 或 r...

python selenium xpath scrapy response
0 votes

answers

views

scrapy Xpath查询选择输入标记元素（赏金）

我正在使用scrapy crawl spider并尝试解析输出页面以选择所有输入标记参数，如下所示：输入类型：必须是（文本或密码或文件）输入id：如果找不到，请选择[输入名称] . 我在scrapy shell中测试了一个示例代码，但它没有给我确切的结果，所以，你能帮助我吗？测试网站：http://testaspnet.vulnweb.com/Signup.aspx >&g...

xpath scrapy

热门问题