-
0 votesanswersviews
解析来自网站json表的数据与美丽的汤
我敢肯定,这将是一个快速解决方案,有合理的网络刮痧与beautifulsoup知识的人 . 我试图从表中获取数据但由于某种原因它没有给我预期的输出 . 以下是我的代码: from selenium import webdriver from bs4 import BeautifulSoup import pandas as pd import time import json def main(... -
2 votesanswersviews
Python中的BeautifulSoup中的.find()
我正在尝试使用Beautiful Soup来搜索html文档 . 有没有办法在文档中搜索包含某些关键字字符串的表?例如,如果我有 table : <table> <tr> <td> 'abc' </td> <td> 'other data' </td> </tr> <tr> ... -
1 votesanswersviews
如何处理utf-8编码的String和BeautifulSoup?
如何用正确的unicode替换unicode-Strings中的HTML实体? u'&quot;HAUS Kleider&quot; - &Uuml;ber das Bekleiden und Entkleiden, das Verh&Yuml;llen und Veredeln' 至 u'"HAUS-Kleider" - Über das B... -
149 votesanswersviews
如何在Python中将字符串转换为utf-8
我有一个浏览器,它向我的Python服务器发送utf-8字符,但是当我从查询字符串中检索它时,Python返回的编码是ASCII . 如何将纯字符串转换为utf-8? 注意:从Web传递的字符串已经是UTF-8编码的,我只想让Python将其视为UTF-8而不是ASCII . -
1 votesanswersviews
BeautifulSoup中导航字符串和unicode的问题
我在BeautifulSoup(python)中遇到了navigablestrings和unicode的问题 . 基本上,我正在从youtube解析四个结果页面,并将顶部结果的扩展名(youtube.com/watch?=之后的url的结尾)放入列表中 . 然后我将列表循环到另外两个函数中,在一个函数上,它抛出了这个错误: TypeError: 'NavigableString' object i... -
22 votesanswersviews
如何使用BeautifulSoup正确地将UTF-8编码的HTML解析为Unicode字符串?
我正在运行一个Python程序,它获取一个UTF-8编码的网页,我使用BeautifulSoup从HTML中提取一些文本 . 但是,当我将此文本写入文件(或在控制台上打印)时,它将以意外编码形式写入 . 示例程序: import urllib2 from BeautifulSoup import BeautifulSoup # Fetch URL url = 'http://www.voxnow... -
0 votesanswersviews
Windows 3中的Python 3 / BeautifulSoup中的HTML实体处理
我无法在Windows上的Python3 / BeautifulSoup中处理包含转义的unicode字符(在中文范围内)的HTML . BeautifulSoup似乎正常运行,直到我尝试打印提取的标签,或写出文件 . 我的默认编码设置为utf-8,但cp1252编解码器似乎已被选中... 重现: soup = BeautifulSoup("&#38577;") f... -
0 votesanswersviews
BeautifulSoup为html转换提供垃圾
我试图scape这个网址='http://www.jmlr.org/proceedings/papers/v36/li14.pdf网址 . 这是我的代码 html = requests.get(url) htmlText = html.text soup = BeautifulSoup(htmlText) print soup #gives garbage 然而,它给出了... -
0 votesanswersviews
如何获取保存标签的字符串形式的BeautifulSoup NavigableString
我正在使用Python的BeautifulSoup处理HTML格式的大型数据文件 . 我正在获取NavigableStrings,我需要在打印之前进行unicode编码 . 如果我从NavigableString获取get_text()或.string,它似乎从中删除所有HTML标记 . 另一方面,NavigableString本身似乎没有.encode(“utf-8”)类型选项 . 那么如何在不... -
519 votesanswersviews
从字符串列表中删除空字符串
我想从python中的字符串列表中删除所有空字符串 . 我的想法是这样的: while '' in str_list: str_list.remove('') 有没有更多的pythonic方式来做到这一点? -
2 votesanswersviews
Python BeautifulSoup - 与find和findAll不同的结果
我正在尝试使用BeautifulSoup解析嵌入在HTML中的一些文本,使用“text”属性 . 玩“find”和“findAll”,我注意到一些奇怪的东西,无法理解为什么它以这种方式表现...... import re import BeautifulSoup doc = "<html><head><title>Page title</tit... -
5 votesanswersviews
对于缺少</ td>标记的HTML表使用Beautiful Soup
我正在努力解决一些片状HTML表格到Beautiful Soup的列表 . 有问题的表缺少</ td>标签 . 使用以下代码(不是我正在解析的真实表,但在功能上类似): import bs4 test = "<table> <tr><td>1<td>2<td>3</tr> <tr><td... -
0 votesanswersviews
使用python中的字典在文本文件中查找字典单词
我读了how to check dictionary words我想到了用字典检查我的文本文件 . 我已经阅读了pyenchant指令,我想如果我使用 get_tokenizer 给我回复文本文件中的所有字典单词 . 所以这就是我被困住的地方:我希望我的程序以段落的形式给我所有字典词组 . 一旦遇到任何垃圾字符,就会认为段落中断,并忽略所有内容,直到找到X个连续的单词 . 我希望它以 filena... -
1 votesanswersviews
无法使用python中的BeautifulSoup在soup.findAll('table')中找到表格
我使用soup.findAll('table')来尝试在html文件中找到该表,但它不会出现 . 该表确实存在于文件中,并且使用正则表达式,我可以通过这种方式找到它: import sys import urllib2 from bs4 import BeautifulSoup import re webpage = open(r'd:\samplefile.html', 'r').read() ... -
1 votesanswersviews
如何在链接之后使用链接和文本以及使用python之后的另一个文本提取文本
我已将以下 string 解析为BeautifulSoup以从中提取数据,但我无法获取一些数据 . 尝试过不同的方法 . 我设法弄清了"a"标签,链接和每个链接之外的文本之间的文本 . <html> <body> <p align="left"> <font face="Arial, Helve... -
1 votesanswersviews
使用BeautifulSoup更新HTML文件
我希望能够使用BeautifulSoup保存我对HTML文件所做的更改 . 我的脚本当前能够找到HTML文件中包含单词“data”的所有href,然后能够利用Google的url结果构建一个新的href . 标签值正确打印但问题是我无法看到输出文件中反映的那些更改,因为它似乎没有更新Soup . 更新以反映工作解决方案 - # making the soup htmlDoc = open('tes... -
0 votesanswersviews
使用beautifulsoup 4关闭格式错误的html中的<p>标签
我有一套不那么有效的html页面要刮掉 . 我需要的数据是“p”标签 . 但是,大多数都没有关闭: <p>Bla-bla-bla <p>bla bla <p>more bla-bla <p><span class="some_class">another bla</span> <p>just s... -
3 votesanswersviews
BeautifulSoup和php / html文件
我一直在使用BeautifulSoup将一些古老的HTML文件中的相对URL从归档网站转换为绝对URL(大多数情况下,它们可以通过.htaccess规则更好地定位) . 这部分我已经下来了:搜索某些标签及其atts,使用urllib.parse.urljoin(这是Python3)来纠正 . 精细 . 但是,从本网站的后期开始,此集合中还有一些.php文件 . 他们大多使用3-5行来包含其他.ph... -
7 votesanswersviews
带有“lxml”解析器的Python BeautifulSoup将长字符串分解为字符
我注意到Python [3.6.5] BeautifulSoup [4.6.0]和"lxml" [4.2.1]解析器如何处理长 bytes 对象与长字符串之间存在奇怪的不一致 . (显然,"long"> 16,384 = 2 ** 14个字符或字节 . ) 例如,我从麻省理工学院网站下载奥赛罗的文本,并以原始(字节)形式和解码为字符串后将其提供给BS... -
0 votesanswersviews
解析源代码(Python)方法:美丽的汤,lxml,html5lib的区别?
我有一个大的HTML源代码我想解析(~200,000)行,我相当确定整个格式都很差 . 我一直在研究一些解析器,似乎Beautiful Soup,lxml,html5lib是最受欢迎的 . 从阅读这个网站,似乎lxml是最常用和最快的,而美丽的汤比较慢,但会导致更多的错误和变化 . 我对Beautiful Soup文档http://www.crummy.com/software/Beautiful... -
0 votesanswersviews
从BeautifulSoup中提取标签
我试图从http://feeds.reuters.com/~r/reuters/technologyNews/~3/ZyAuZq5Cbz0/story01.htm获取Body-Tag 但BeautifulSoup找不到它 . 这是因为HTML无效吗?如果是这样,我该如何防止这种情况? 我还尝试使用PyTidyLib(http://countergram.com/open-source/pytidy... -
4 votesanswersviews
在beautifulsoup的上下文中lxml和html5lib之间的区别
在beautifulsoup的上下文中,lxml和html5lib解析器的功能有区别吗?我正在尝试学习使用BS4并使用以下代码构造 - ret = requests.get('http://www.olivegarden.com') soup = BeautifulSoup(ret.text, 'html5lib') for item in soup.find_all('a'): pri... -
0 votesanswersviews
使用BeautifulSoup或lxml解析和修改html . 使用一些html标记包围文本,该标记直接位于<body>标记下
我作为初学者在Python2.7工作 . 我想解析和修改一些html文件 . 为此,我使用Beautiful Soup和lxml也是一种选择 . 现在的问题是我可以通过修改html来包含带有一些html标签的文本 . 文本直接在'body'标签下,所以什么文本直接在body标签下我想修改html,以便我可以在我想要的标签下获取文本 . 所以我可以解析它并轻松找出这个文本的位置 . <html... -
1 votesanswersviews
BeautifulSoup通过原始xml替换标记,无需解析/转义
说我有像这样的xml(真正的一个更复杂): <a> <b> <c replace="alpha" /> </b> <d> <c replace="beta"></c> </d> </a> ... -
-1 votesanswersviews
无法通过pip安装lxml?还有其他选择吗? [重复]
这个问题在这里已有答案: Installing lxml, libxml2, libxslt on Windows 8.1 4个答案 实际上我试图安装lxml因为 UserWarning:没有明确指定解析器,所以我使用了最好的HTML解析器(“html.parser”) . 这通常不是问题,但如果您在另一个系统上或在不同的虚拟环境中运行此代码,它可能使用不同的解析器并且行为不同 . 所以我... -
1 votesanswersviews
如何让Python bs4在XML上正常工作?
我正在尝试使用Python和BeautifulSoup 4(bs4)将Inkscape SVG转换为类似XML的格式,用于某些专有软件 . 我似乎无法让bs4正确解析一个最小的例子 . 我需要解析器尊重自闭标签,处理unicode,而不是添加html东西 . 我认为用selfClosingTags指定'lxml'解析器应该这样做,但是没有!看看这个 . #!/usr/bin/python from... -
2 votesanswersviews
BeautifulSoup抑制lxml解析erorrs?
我使用lxml与BeautifulSoup一起解析和导航XML文件 . 我注意到奇怪的行为 . 当读取格式错误的XML文件(例如截断的doc或缺少结束标记)时,Beautifulsoup会抑制lxml解析器抛出的异常 . 例: from bs4 import BeautifulSoup soup = BeautifulSoup("<foo><bar>trololo... -
0 votesanswersviews
Python BeautifulSoup - findall(“?php”(运行到enclass->方法的结束标记cuz的问题)
我需要找到所有PHP标签,但是当遇到调用带有“ - >”的方法的类时,我遇到了麻烦 . 它选择“>”作为结束标记 . PHP标签: <html><body> Blah Blah Blah... <h2>Section Heading <?php $playFrom->time("09:58"); ?></h... -
0 votesanswersviews
lxml在查找链接时错误地解析了Doctype
我有一个BeautifulSoup4(4.2.1)解析器,它从我们的模板文件中收集所有 href 属性,直到现在它已经完美无缺 . 但是安装了lxml后,我们其中一个人现在正在使用; TypeError: string indices must be integers . 我设法在我的Linux Mint VM上复制它,唯一的区别似乎是lxml所以我假设当bs4使用该html解析器时会出现问题 ... -
0 votesanswersviews
beautifulsoup html.parser错误
我正在尝试使用BeautifulSoup来解析URL中的HTML数据 . 但是,我一直收到警告: “没有明确指定解析器,所以我使用了最好的HTML解析器(”html.parser“) . 这通常不是问题,但是如果你在另一个系统上运行这个代码,或者在另一个系统上运行在虚拟环境中,它可能使用不同的解析器并且表现不同 . 要摆脱此警告,请更改此: BeautifulSoup([your markup])...