首页 文章
  • 0 votes
     answers
     views

    不适当的部署Scrapy代理

    当我正在抓取 Profiles 时,我收到了一条错误消息 . 我假设我使用我的代理错了 . 但这里的主要错误是什么?你们能帮忙吗? 2017-06-15 21:35:17 [scrapy.proxies]信息:删除失败的代理,剩下12个代理2017-06-15 21:35:17 [scrapy.core.scraper]错误:下载https://时出错www.linkedin.com/in/ji...
  • 1 votes
     answers
     views

    违反协议(_ssl.c:590)

    我正在尝试运行一个代码,将搜索词发送到谷歌并记录谷歌的建议 . import requests import re import time from random import randint import pandas as pd from param_config import config import cPickle START_SPELL_CHECK="<span cl...
  • 1 votes
     answers
     views

    通过VBA Excel在站点中更改数据

    我正在尝试通过以下代码更改网站中的值,但如何通过代码单击“提交”按钮? 另外如果我的.Navigate值应该从A1 - > A2 - >继续移动而不是静态值?(如何使用'For'循环代替.Navigate)? Sub FillForm() Dim IE As Object Set IE = CreateObject("InternetExplorer.Applicatio...
  • 0 votes
     answers
     views

    无法以正确的方式使用代理

    我在python中编写了一个脚本来抓取通过代理生成的请求的URL . 我在我的脚本中使用了 shuffle() 来随机获取代理 . 脚本在某种程度上做得很好 . 此脚本的问题是当它无法使用任何有效的代理时,由于循环,它会转到另一个 url . 如何以这种方式纠正我的脚本,以便它将尝试使用列表中的每个代理(如果需要)来获取所有 urls . 这是我的尝试: import requests fro...
  • 0 votes
     answers
     views

    如何使用python废弃带有免费信息的网页?

    我正在尝试使用来自WTO的公共数据 . https://rtais.wto.org/UI/PublicAllRTAList.aspx 上面的网页显示了所有区域贸易协定(RTA) . 但是,它没有显示每个区域贸易协定中的国家名单 . 我正在手动执行此操作,检查每个协议并将它们附加到R中的数据框中,但我想必须有一种更有效的方法来执行此操作 . 我不熟悉Web报废,但我可以在基本意义上使用R和pytho...
  • 0 votes
     answers
     views

    使用R从不同页面中截取Web数据

    我知道如何使用R从网站中提取表格数据 . 但是我不确定如何从包含不同页面的网站中删除数据 . 对于例如https://www.msn.com/en-in/money/photos/50-richest-people-on-the-planet-in-2016/ss-AAhIs7m?ocid=spartandhp#image=1 . 这个特定的网站包含了这个世界上最富有的50个人,他们的年龄和净值与...
  • 1 votes
     answers
     views

    Web使用R将多个页面串联

    如何废弃70页的html数据?我正在看这个question但我被困在一般方法部分的功能 . #attempt library(purrr) url_base <-"https://secure.capitalbikeshare.com/profile/trips/QNURCMF2Q6" map_df(1:70, function(i) { cat(".&...
  • 1 votes
     answers
     views

    Web-Scrapping - 带R的多个页面

    我需要使用R从Web中删除html表 . 每页有1000个行的一个表,总共有316页 . 第一个网址的链接在这里:“http://sumodb.sumogames.de/Query.aspx?show_form=0&columns=6&rowcount=5&showheya=on&showshusshin=on&showbirthdate=on&sh...
  • 0 votes
     answers
     views

    如何使用R从特定关键字中删除网络数据?

    我需要通过一些特定的关键字来可视化网页中的数据 . 我使用R编程来从网站上删除整个数据,但我需要特定关键字的数据 .
  • 2 votes
     answers
     views

    用R [j]从javascript中提取数据

    感谢您对此感兴趣 . 由于他们在哥伦比亚食品和药物管理局注册,我被赋予[乏味]任务以查看某些药物的原产国 . 该机构使用带有javascript(.jsp扩展名)的网站,我想知道是否可以自动化该过程 . 这是查找的一步一步: 访问代理商网站:Agency's consult site 在左侧的下拉列表中选择"Medicamentos" 在"expendie...
  • 1 votes
     answers
     views

    如何使用R从帧中的网站抓取数据?

    以下链接包含巴黎马拉松的结果:http://www.schneiderelectricparismarathon.com/us/the-race/results/results-marathon . 我想抓取这些结果,但信息在一个框架内 . 我知道使用Rvest和Rselenium进行刮擦的基础知识,但我对如何在这样的框架内检索数据毫无头绪 . 为了得到一个想法,我尝试的其中一件事是: url =...
  • 0 votes
     answers
     views

    使用BeautifulSoup的HTML中的外来字符(即中文)?

    我有一个包含1,000个URL的文本文件,每个URL链接到一个文本日记条目 . 其中一些条目包含中文或日文字符 . 我想使用BeautifulSoup保存每个条目 . 但是,我无法弄清楚编码和解码在这种情况下是如何工作的 . 我已经浏览了Stack Overflow以寻求帮助,我只能找到字符串本身已知并设置为变量的实例 . 但是,鉴于我正在从URL列表中抓取,我不知道在收集它们之前我会找到哪些字符...
  • 0 votes
     answers
     views

    登录墙后面的刮痧页面曾经起作用,但现在已不复存在了

    几个星期前,我写了一个程序,定期从“登录墙”后面的网站上抓取页面,即您需要使用有效的帐户登录才能查看页面 . 我这样做是通过使用python会话并首先通过模仿浏览器生成的有效负载登录(使用从登录页面中删除的csrf令牌)然后抓取所需的页面 - 这很好 . 现在突然它不再起作用了(在工作了几个星期之后) - 我的程序不再能够登录了 . 我检查了有效载荷是否改变了 - 它没有;我试图包含一个用户代理 ...
  • 3 votes
     answers
     views

    Python Web抓取请求遵循重定向

    我正在尝试使用请求模块抓取一个网站 . 使用chrome和inspect元素,我转到url,填写表单并单击继续按钮 . Chrome的检查元素(网络文档)显示了随帖子发送的chrome . 它还显示多个cookie . 该站点重定向到URL,其中包括会话ID . 为了模拟这个,我尝试使用请求 . 我从inspect元素中获取表单数据并将其重新格式化为字典 . 我使用requests.sessio...
  • 1 votes
     answers
     views

    使用Python抓取网页时如何模仿POST方法?

    作为网络抓取的初学者,我正在学习本教程:https://brennan.io/2016/03/02/logging-in-with-requests/ 关于如何刮取需要登录/会话cookie的网站 . 上面表示在POST到登录页面时只需要隐藏的输入 . 所以这是我最终得到的代码: import requests, lxml.html URL = 'https://www.mypage.com/l...
  • 0 votes
     answers
     views

    无法使用Python会话请求登录网站

    我是网络抓取的新手,我正在尝试使用requests.Session()登录imagingrewardsprogram.com . 我已经能够成功登录到其他网站,我很难过为什么我无法登录这个网站 . 当我在Google Chrome浏览器中登录该站点并在开发人员工具中查看表单数据时,我能够看到我传入我的代码的表单数据与我传入Web浏览器的表单数据相同( “用户”和“密码”) . 我敢肯定,我应该传递...
  • 8 votes
     answers
     views

    在循环中使用Scrapy Itemloader

    我想在他们的教程中使用的Dmoz网站上使用Scrapy,但不是只使用项目/字段对阅读书籍URL(http://www.dmoz.org/Computers/Programming/Languages/Python/Books/)中的书籍,我想创建一个将读取所需值的Itemloader (名称, Headers ,描述) . 这是我的items.py文件: from scrapy.item impo...
  • 0 votes
     answers
     views

    使用python和scrapy刮网站

    我是Scrapy(&Python!)的新手,我试图废弃Cricinfo网站上的评论 . 以下是网页示例:http://www.espncricinfo.com/champions-league-twenty20-2014/engine/match/763595.html?innings=1;view=commentary 我有兴趣刮过数字(例如0.1)和旁边的文字 . 使用Firebug我可以看到...
  • 0 votes
     answers
     views

    找到适合利率的XPath

    我需要使用Python从雅虎财经中提取APR . 我试图按照找到here的基本示例,但我一直返回一个空列表 . 这是我正在使用的代码: import requests from lxml import html page = requests.get('http://finance.yahoo.com/rates/') tree = html.fromstring(page.text) int...
  • 1 votes
     answers
     views

    用恶梦自动化ajax生成的网站

    我正在使用Nightmare自动化网站 . 到目前为止它一直很棒,但我注意到当我想要与动态加载的内容进行交互时它会出现一些问题 . 甚至有一种方法,等待元素出现在页面 .wait(#elementId) 上,但它不适用于即时生成的内容 . 以前有人遇到过这个问题,或者你可以推荐一些其他技术吗?我喜欢噩梦的是,它实际上并不是无头的,并且通过与Electron的集成,它还有一个GUI,可以显示所做的一...
  • 1 votes
     answers
     views

    从具有不同工作表名称的Excel工作表中刮取数据

    我有许多excel电子表格,其中包含数据 . 我想找到所有excel电子表格,转到特定表格并查找特定单元格 . 每个电子表格对应于患者,其中一个工作表具有患者在特定细胞中接收的剂量 . 然后我可以绘制每张电子表格的 Value 随时间变化的情况 . 但是,在某些工作簿中,工作表被称为不同的东西,或者具有不同的索引值 . 是否有任何解决方案不涉及我手动重命名/移动我有的1000个电子表格工作表,所以...
  • 8 votes
     answers
     views

    在Python 3.5中使用aiohttp获取多个URL

    由于Python 3.5引入了 async with ,docs为aiohttp推荐的语法已经改变 . 现在要获得一个网址,他们建议: import aiohttp import asyncio async def fetch(session, url): with aiohttp.Timeout(10): async with session.get(url) as r...
  • 13 votes
     answers
     views

    asyncio web scraping 101:使用aiohttp获取多个url

    在之前的问题中, aiohttp 的作者之一建议使用 Python 3.5 中的新 async with 语法fetch multiple urls with aiohttp: import aiohttp import asyncio async def fetch(session, url): with aiohttp.Timeout(10): async with ...
  • 1 votes
     answers
     views

    使用asyncio和aiohttp从url加载zip文件

    如何使用GET请求加载Zip文件? 我在我的Python应用程序中使用asyncio和aiohttp . 那是我的代码: async def fetch_page(session, url): with aiohttp.Timeout(10): async with session.get(url) as response: assert respo...
  • 0 votes
     answers
     views

    PHP和curl用于从Yahoo Finance获取货币汇率

    我写了以下php片段来获取Yahoo Finance的货币转换率 . 我正在使用curl来获取数据 . 假设,我想从美元(USD)转换为印度国民卢比(INR),那么网址是http://in.finance.yahoo.com/currency/convert?amt=1&from=USD&to=INR&submit=,印度卢比值显示为45.225 . 但是,如果我运行我的代...
  • 16 votes
     answers
     views

    使用BeautifulSoup和Python获取元标记内容属性

    我正在尝试使用python和美丽的汤来提取下面标签的内容部分: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http://superfunevents.com/events/s...
  • 2 votes
     answers
     views

    使用beautifulsoup从页面刮取表格,找不到表格

    我一直试图从here刮掉 table ,但在我看来,BeautifulSoup找不到任何 table . 我写: import requests import pandas as pd from bs4 import BeautifulSoup import csv url = "http://www.payscale.com/college-salary-report/bachel...
  • 0 votes
     answers
     views

    BeautifulSoup和lxml解析器的问题

    我在使用BeautifulSoup 4.1.0和lxml解析器抓取一些网页时发现了一个奇怪的行为 . 内置的html.parser不能用于我试图抓取的网页,我决定使用lxml解析器 . 我的Eclipse控制台上打印的结果看起来好不到一秒钟,然后,它会自动切换到一个不完整,无用且不太好看的输出,所有字符之间都有空格: ! - - S w i t c h - - > ...
  • 0 votes
     answers
     views

    与Python BeautifulSoup的HTML混淆

    我在youtube上关注了newboston的教程,编译完代码后我没有错误 . 我正在尝试打印"Generic Line List"以及该列表后面的所有链接;可以在此链接的底部找到http://playrustwiki.com/wiki/List_of_Items import requests from bs4 import BeautifulSoup def trade_...
  • 0 votes
     answers
     views

    来自beautifulsoup的amazon scraping与使用浏览器不同

    我正在尝试从amazon.com的搜索结果中删除数据 现在,对于相同的关键字,亚马逊返回 <ul> 标签中显示的结果列表 . 每个 <li> 标记都包含结果中的产品 . 当您从浏览器进行关键字搜索时,您会得到15个结果的列表,其中最后2或3个 <li> 是该列表中产品的"sponsored"广告 . 然而,使用beautifulsoup从py...

热门问题