Java 学习之路

0 votes

answers

views

解析来自网站json表的数据与美丽的汤

我敢肯定，这将是一个快速解决方案，有合理的网络刮痧与beautifulsoup知识的人 . 我试图从表中获取数据但由于某种原因它没有给我预期的输出 . 以下是我的代码： from selenium import webdriver from bs4 import BeautifulSoup import pandas as pd import time import json def main(...

python json web-scraping beautifulsoup
2 votes

answers

views

Python中的BeautifulSoup中的.find（）

我正在尝试使用Beautiful Soup来搜索html文档 . 有没有办法在文档中搜索包含某些关键字字符串的表？例如，如果我有 table ： <table> <tr> <td> 'abc' </td> <td> 'other data' </td> </tr> <tr> ...

python python-3.x beautifulsoup
1 votes

answers

views

如何处理utf-8编码的String和BeautifulSoup？

如何用正确的unicode替换unicode-Strings中的HTML实体？ u'&quot;HAUS Kleider&quot; - &Uuml;ber das Bekleiden und Entkleiden, das Verh&Yuml;llen und Veredeln' 至 u'"HAUS-Kleider" - Über das B...

python beautifulsoup
149 votes

answers

views

如何在Python中将字符串转换为utf-8

我有一个浏览器，它向我的Python服务器发送utf-8字符，但是当我从查询字符串中检索它时，Python返回的编码是ASCII . 如何将纯字符串转换为utf-8？注意：从Web传递的字符串已经是UTF-8编码的，我只想让Python将其视为UTF-8而不是ASCII .

python python-2.7 unicode utf-8
1 votes

answers

views

BeautifulSoup中导航字符串和unicode的问题

我在BeautifulSoup（python）中遇到了navigablestrings和unicode的问题 . 基本上，我正在从youtube解析四个结果页面，并将顶部结果的扩展名（youtube.com/watch?=之后的url的结尾）放入列表中 . 然后我将列表循环到另外两个函数中，在一个函数上，它抛出了这个错误： TypeError: 'NavigableString' object i...

python beautifulsoup
22 votes

answers

views

如何使用BeautifulSoup正确地将UTF-8编码的HTML解析为Unicode字符串？

我正在运行一个Python程序，它获取一个UTF-8编码的网页，我使用BeautifulSoup从HTML中提取一些文本 . 但是，当我将此文本写入文件（或在控制台上打印）时，它将以意外编码形式写入 . 示例程序： import urllib2 from BeautifulSoup import BeautifulSoup # Fetch URL url = 'http://www.voxnow...

python unicode utf-8 beautifulsoup urllib2
0 votes

answers

views

Windows 3中的Python 3 / BeautifulSoup中的HTML实体处理

我无法在Windows上的Python3 / BeautifulSoup中处理包含转义的unicode字符（在中文范围内）的HTML . BeautifulSoup似乎正常运行，直到我尝试打印提取的标签，或写出文件 . 我的默认编码设置为utf-8，但cp1252编解码器似乎已被选中... 重现： soup = BeautifulSoup("&#38577;") f...

python windows python-3.x unicode beautifulsoup
0 votes

answers

views

BeautifulSoup为html转换提供垃圾

我试图scape这个网址='http://www.jmlr.org/proceedings/papers/v36/li14.pdf网址 . 这是我的代码 html = requests.get(url) htmlText = html.text soup = BeautifulSoup(htmlText) print soup #gives garbage 然而，它给出了...

python html pdf utf-8 beautifulsoup
0 votes

answers

views

如何获取保存标签的字符串形式的BeautifulSoup NavigableString

我正在使用Python的BeautifulSoup处理HTML格式的大型数据文件 . 我正在获取NavigableStrings，我需要在打印之前进行unicode编码 . 如果我从NavigableString获取get_text（）或.string，它似乎从中删除所有HTML标记 . 另一方面，NavigableString本身似乎没有.encode（“utf-8”）类型选项 . 那么如何在不...

python beautifulsoup
519 votes

answers

views

从字符串列表中删除空字符串

我想从python中的字符串列表中删除所有空字符串 . 我的想法是这样的： while '' in str_list: str_list.remove('') 有没有更多的pythonic方式来做到这一点？

python string list
2 votes

answers

views

Python BeautifulSoup - 与find和findAll不同的结果

我正在尝试使用BeautifulSoup解析嵌入在HTML中的一些文本，使用“text”属性 . 玩“find”和“findAll”，我注意到一些奇怪的东西，无法理解为什么它以这种方式表现...... import re import BeautifulSoup doc = "<html><head><title>Page title</tit...

python beautifulsoup
5 votes

answers

views

对于缺少</ td>标记的HTML表使用Beautiful Soup

我正在努力解决一些片状HTML表格到Beautiful Soup的列表 . 有问题的表缺少</ td>标签 . 使用以下代码（不是我正在解析的真实表，但在功能上类似）： import bs4 test = "<table> <tr><td>1<td>2<td>3</tr> <tr><td...

python html beautifulsoup
0 votes

answers

views

使用python中的字典在文本文件中查找字典单词

我读了how to check dictionary words我想到了用字典检查我的文本文件 . 我已经阅读了pyenchant指令，我想如果我使用 get_tokenizer 给我回复文本文件中的所有字典单词 . 所以这就是我被困住的地方：我希望我的程序以段落的形式给我所有字典词组 . 一旦遇到任何垃圾字符，就会认为段落中断，并忽略所有内容，直到找到X个连续的单词 . 我希望它以 filena...

python dictionary data-cleansing pyenchant
1 votes

answers

views

无法使用python中的BeautifulSoup在soup.findAll（'table'）中找到表格

我使用soup.findAll（'table'）来尝试在html文件中找到该表，但它不会出现 . 该表确实存在于文件中，并且使用正则表达式，我可以通过这种方式找到它： import sys import urllib2 from bs4 import BeautifulSoup import re webpage = open(r'd:\samplefile.html', 'r').read() ...

python-2.7 beautifulsoup tags find findall
1 votes

answers

views

如何在链接之后使用链接和文本以及使用python之后的另一个文本提取文本

我已将以下 string 解析为BeautifulSoup以从中提取数据，但我无法获取一些数据 . 尝试过不同的方法 . 我设法弄清了"a"标签，链接和每个链接之外的文本之间的文本 . <html> <body> <p align="left"> <font face="Arial, Helve...

python beautifulsoup
1 votes

answers

views

使用BeautifulSoup更新HTML文件

我希望能够使用BeautifulSoup保存我对HTML文件所做的更改 . 我的脚本当前能够找到HTML文件中包含单词“data”的所有href，然后能够利用Google的url结果构建一个新的href . 标签值正确打印但问题是我无法看到输出文件中反映的那些更改，因为它似乎没有更新Soup . 更新以反映工作解决方案 - # making the soup htmlDoc = open('tes...

python html beautifulsoup
0 votes

answers

views

使用beautifulsoup 4关闭格式错误的html中的<p>标签

我有一套不那么有效的html页面要刮掉 . 我需要的数据是“p”标签 . 但是，大多数都没有关闭： <p>Bla-bla-bla <p>bla bla <p>more bla-bla <p><span class="some_class">another bla</span> <p>just s...

python-3.x beautifulsoup html-parsing
3 votes

answers

views

BeautifulSoup和php / html文件

我一直在使用BeautifulSoup将一些古老的HTML文件中的相对URL从归档网站转换为绝对URL（大多数情况下，它们可以通过.htaccess规则更好地定位） . 这部分我已经下来了：搜索某些标签及其atts，使用urllib.parse.urljoin（这是Python3）来纠正 . 精细 . 但是，从本网站的后期开始，此集合中还有一些.php文件 . 他们大多使用3-5行来包含其他.ph...

php python html parsing beautifulsoup
7 votes

answers

views

带有“lxml”解析器的Python BeautifulSoup将长字符串分解为字符

我注意到Python [3.6.5] BeautifulSoup [4.6.0]和"lxml" [4.2.1]解析器如何处理长 bytes 对象与长字符串之间存在奇怪的不一致 . （显然，"long"> 16,384 = 2 ** 14个字符或字节 . ）例如，我从麻省理工学院网站下载奥赛罗的文本，并以原始（字节）形式和解码为字符串后将其提供给BS...

python beautifulsoup decode
0 votes

answers

views

解析源代码（Python）方法：美丽的汤，lxml，html5lib的区别？

我有一个大的HTML源代码我想解析（~200,000）行，我相当确定整个格式都很差 . 我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的 . 从阅读这个网站，似乎lxml是最常用和最快的，而美丽的汤比较慢，但会导致更多的错误和变化 . 我对Beautiful Soup文档http://www.crummy.com/software/Beautiful...

python parsing beautifulsoup lxml
0 votes

answers

views

从BeautifulSoup中提取标签

我试图从http://feeds.reuters.com/~r/reuters/technologyNews/~3/ZyAuZq5Cbz0/story01.htm获取Body-Tag 但BeautifulSoup找不到它 . 这是因为HTML无效吗？如果是这样，我该如何防止这种情况？我还尝试使用PyTidyLib（http://countergram.com/open-source/pytidy...

python beautifulsoup
4 votes

answers

views

在beautifulsoup的上下文中lxml和html5lib之间的区别

在beautifulsoup的上下文中，lxml和html5lib解析器的功能有区别吗？我正在尝试学习使用BS4并使用以下代码构造 - ret = requests.get('http://www.olivegarden.com') soup = BeautifulSoup(ret.text, 'html5lib') for item in soup.find_all('a'): pri...

python beautifulsoup lxml html5lib
0 votes

answers

views

使用BeautifulSoup或lxml解析和修改html . 使用一些html标记包围文本，该标记直接位于<body>标记下

我作为初学者在Python2.7工作 . 我想解析和修改一些html文件 . 为此，我使用Beautiful Soup和lxml也是一种选择 . 现在的问题是我可以通过修改html来包含带有一些html标签的文本 . 文本直接在'body'标签下，所以什么文本直接在body标签下我想修改html，以便我可以在我想要的标签下获取文本 . 所以我可以解析它并轻松找出这个文本的位置 . <html...

python html-parsing beautifulsoup lxml
1 votes

answers

views

BeautifulSoup通过原始xml替换标记，无需解析/转义

说我有像这样的xml（真正的一个更复杂）： <a> <b> <c replace="alpha" /> </b> <d> <c replace="beta"></c> </d> </a> ...

python xml xml-parsing beautifulsoup
-1 votes

answers

views

无法通过pip安装lxml？还有其他选择吗？ [重复]

这个问题在这里已有答案： Installing lxml, libxml2, libxslt on Windows 8.1 4个答案实际上我试图安装lxml因为 UserWarning：没有明确指定解析器，所以我使用了最好的HTML解析器（“html.parser”） . 这通常不是问题，但如果您在另一个系统上或在不同的虚拟环境中运行此代码，它可能使用不同的解析器并且行为不同 . 所以我...

python pip lxml bs4
1 votes

answers

views

如何让Python bs4在XML上正常工作？

我正在尝试使用Python和BeautifulSoup 4（bs4）将Inkscape SVG转换为类似XML的格式，用于某些专有软件 . 我似乎无法让bs4正确解析一个最小的例子 . 我需要解析器尊重自闭标签，处理unicode，而不是添加html东西 . 我认为用selfClosingTags指定'lxml'解析器应该这样做，但是没有！看看这个 . #!/usr/bin/python from...

python xml unicode beautifulsoup bs4
2 votes

answers

views

BeautifulSoup抑制lxml解析erorrs？

我使用lxml与BeautifulSoup一起解析和导航XML文件 . 我注意到奇怪的行为 . 当读取格式错误的XML文件（例如截断的doc或缺少结束标记）时，Beautifulsoup会抑制lxml解析器抛出的异常 . 例： from bs4 import BeautifulSoup soup = BeautifulSoup("<foo><bar>trololo...

xml beautifulsoup lxml
0 votes

answers

views

Python BeautifulSoup - findall（“？php”（运行到enclass->方法的结束标记cuz的问题）

我需要找到所有PHP标签，但是当遇到调用带有“ - >”的方法的类时，我遇到了麻烦 . 它选择“>”作为结束标记 . PHP标签： <html><body> Blah Blah Blah... <h2>Section Heading <?php $playFrom->time("09:58"); ?></h...

python beautifulsoup
0 votes

answers

views

lxml在查找链接时错误地解析了Doctype

我有一个BeautifulSoup4（4.2.1）解析器，它从我们的模板文件中收集所有 href 属性，直到现在它已经完美无缺 . 但是安装了lxml后，我们其中一个人现在正在使用; TypeError: string indices must be integers . 我设法在我的Linux Mint VM上复制它，唯一的区别似乎是lxml所以我假设当bs4使用该html解析器时会出现问题 ...

python html beautifulsoup lxml
0 votes

answers

views

beautifulsoup html.parser错误

我正在尝试使用BeautifulSoup来解析URL中的HTML数据 . 但是，我一直收到警告： “没有明确指定解析器，所以我使用了最好的HTML解析器（”html.parser“） . 这通常不是问题，但是如果你在另一个系统上运行这个代码，或者在另一个系统上运行在虚拟环境中，它可能使用不同的解析器并且表现不同 . 要摆脱此警告，请更改此： BeautifulSoup([your markup])...

python beautifulsoup

热门问题