-
385 votesanswersviews
HTML抓取的选项? [关闭]
我正在考虑尝试Beautiful Soup,一个用于HTML抓取的Python包 . 我应该看看还有其他HTML抓包吗? Python不是必需的,我实际上也有兴趣了解其他语言 . 到目前为止的故事: Python Beautiful Soup lxml HTQL Scrapy Mechanize Ruby Nokogiri Hpricot Mechanize... -
0 votesanswersviews
美丽的汤和提取 Value
如果你能给我一些关于如何在使用beautifulsoup时获取“1723年6月16日”出生日期的指导,我会很感激 . 现在使用我的代码我已经设法 grab 你在下面看到的结果值,但我所需要的只是获取1723年6月16日的 Value . 任何建议? 我的代码: birth = soup.find("table",{"class":"infobox... -
0 votesanswersviews
HtmlAgilityPack - 使用c#解析带有cookie /标签的网站
当我想从网页获取数据时,我通常使用带有HtmlDocument对象的HtmlAgilityPack,该对象使用网站的主网址,然后使用主表的HtmlNode对象,例如我想从页面获取的所有数据并复制它的XPath进入输入 . 例: HtmlDocument hDocument = GetHtmlDocumentFromUrl("http://someweb.com"); HtmlN... -
0 votesanswersviews
PHP XPath表元素消失
我刚刚了解了XPath,我只想从表中的某些列读取数据 . 我当前的代码如下所示: <?php $file_contents = file_get_contents('test.html'); $dom_document = new DOMDocument(); $dom_document->loadHTML($file_contents); //use DOMXpath to ... -
1 votesanswersviews
使BeautifulSoup忽略脚本标记内的内容
我一直在尝试使用BeautifulSoup(3.1.0.1)来解析一个html页面,其中包含大量生成html内部标记的javascript . 一个示例片段如下所示: <html><head><body><div> <script type='text/javascript'> if(ii > 0) { html += '<... -
4 votesanswersviews
如何使用BeautifulSoup(python)阻止在错误的HTML中关闭标签?
我自动将HTML页面的内容翻译成不同的语言,因此我必须从有时写得不好的不同HTML页面中提取所有文本节点(我无法编辑这些HTML) . 通过使用BeautifulSoup,我可以轻松地提取这些文本并将其替换为翻译,但是当我在这些操作后显示HTML时:html = BeautifulSoup(source_html) - 它有时会被破坏,因为BeautifulSoup会自动关闭标签(例如表标签在错误... -
2 votesanswersviews
BeautifulSoup - 如何在不打开标签和标签之前提取文本?
我是python和beautifulsoup的新手,花了不少时间试图弄清楚这个 .我想在没有类的 <div> 中提取三个特定的文本提取 .我想要的第一个文本提取是在 <a> 标记内,该标记位于 <h4> 标记内 . 我设法提取它 .第二个文本提取紧跟在结束h4标记 </h4> 之后,后跟一个 <br> 标记 .第二个文本提取紧跟在第二个文... -
0 votesanswersviews
如何使用BeautifulSoup获取over-line标签内的内容
我想从HTML代码段中提取内容(“_ The_important_content_”),如下所示: <div class=" a:2 ... -
52 votesanswersviews
在python中解析HTML - lxml还是BeautifulSoup?哪种更好用于何种目的?
据我所知,Python中的两个主要HTML解析库是lxml和BeautifulSoup . 我选择了BeautifulSoup作为我正在研究的项目,但除了找到更容易学习和理解的语法之外,我选择了它 . 但是我看到很多人似乎都喜欢lxml而且我听说lxml更快 . 所以我想知道一个优于另一个的优点是什么?我什么时候想使用lxml?什么时候最好使用BeautifulSoup?还有其他值得考虑的图书馆吗... -
2 votesanswersviews
使用BeautifulSoup帮助在<pre>标签之间进行解析
我正在尝试使用BeautifulSoup和python从网站解析信息 . html如下所示 . 我希望我的解析数据看起来像: ID定义Lysine.biosynthesis - Burkholderia psuedomallei 17...其余数据位于类似位置(在"pre"标签内和"a"标签外 . 我怎样才能做到这一点? <pre>ID ... -
-1 votesanswersviews
Python BeautifulSoup解析特定文本
我正在解析一个html文件,我想找到它所说的"Smaller Reporting Company"文件的一部分,并且它旁边有一个"X"或Checkbox,或者它没有't. The checkbox is typically done with the Wingdings font or an ascii code. In the HTML below you... -
0 votesanswersviews
使用BeautifulSoup在python中解析带有img标记的表
我正在使用BeautifulSoup来解析一个html页面 . 我需要处理页面中的第一个表 . 该表包含几行 . 然后每行包含一些'td'标记,其中一个'td'标记具有'img'标记 . 我想获得该表中的所有信息 . 但如果我打印那张 table ,我就不会't get any data related to the ' img'标签 . 我使用soap.findAll(“table”)来获取所有... -
2 votesanswersviews
BeautifulSoup:在另一个标签后面添加标签文字
如何使用BeautifulSoup通过另一个标签查找标签?在这个例子中,我想得到例如'0993 999 999',它位于另一个带有'Telefon:'文本的div后面的div中 . 我试图用它来得到它: print parsed.findAll('div',{'class':"dva" })[3].text 但它不能正常工作 . 我认为必须有一种方法可以告诉Beautiful... -
3 votesanswersviews
提取<div>标签BeautifulSoup之外的文本
所以我练习刮刮,我遇到了这样的事情: <div class="profileDetail"> <div class="profileLabel">Mobile : </div> 021 427 399 </div> 我需要 <div> 标签之外的数字: 我的代码是: num =... -
0 votesanswersviews
在2标签beautifulsoup python之前解析
我想提取所有链接http://example.com/1并忽略带有beautifulsoup的2 <br><br> 标签后的所有链接 . <div class="compost"> <br><b><a target="_blank" href="http://example.com... -
0 votesanswersviews
远程XML文件写得不好导致解析错误
我正在编写一个RSS类型的阅读器网页来解析一些游戏网站的信息 . 其中一个游戏RSS提要写得不好 . 他们没有费心将描述包装到CDATA中,而是使用simplexml_load_file解析错误 . 这是我写的解析它的函数: function displayAll($url) { $url = "https://www.game.com/newsfeed/rss.vm"; ... -
143 votesanswersviews
使用Python解析HTML
我正在寻找一个用于Python的HTML Parser模块,它可以帮助我以Python列表/字典/对象的形式获取标签 . 如果我有一份表格的文件: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='... -
4 votesanswersviews
HTML到Excel格式转换 - 在同一单元格中的break和li
我在本周早些时候发布了一个关于HTML到Excel转换的问题,这对我很有用 . 我给出的示例宏代码很好地将代码从HTML格式转换为Excel单元格(感谢Siddharth Rout!) . 我现在遇到的问题似乎无法在任何地方找到答案,这与IE对象如何处理Excel中的段落,中断和列表项有关 . p,br和li将文本移动到原始单元格下方的单元格中,覆盖这些单元格中的任何数据 . 有没有办法让HTM... -
1951 votesanswersviews
你如何在PHP中解析和处理HTML / XML?
如何解析HTML / XML并从中提取信息? -
1 votesanswersviews
c#win8 HtmlAgilityPack麻烦
您好我想从一个网站解析地铁应用程序的HTML . 我看了一些关于HtmlAgilityPack的教程,我觉得它很容易 . 但是当我开始项目时,我看到HtmlAgilityPack库中没有包含一些方法或引用作为我观看的教程 . 示例: 在教程视频中,它说: HtmlWeb web = new HtmlWeb(); HtmlDocument doc = web.Load(“url”); 在我的Ht... -
7 votesanswersviews
使用BeautifulSoup获取html剥离脚本和样式标签?
我有一个简单的脚本,我将获取一个HTML页面,将其传递给BeautifulSoup以删除所有脚本和样式标记,然后我想将HTML结果传递给另一个方法 . 是否有捷径可寻?略读BeautifulSoup.py,我还没有看到它 . soup = BeautifulSoup(html) for script in soup("script"): soup.script.extr... -
0 votesanswersviews
BeautifulSoup:传递一个用于永久标记和解析文本的函数
Python脚本: #!/usr/bin/python3.2 import re, sys import requests import time as ti from bs4 import BeautifulSoup as bs base_url = 'http://www.newegg.com' user_agent = ('Mozilla/4.0 (compatible; MSIE 7... -
1 votesanswersviews
使用python beautifulsoup进行Web解析会产生不一致的结果
我试图解析this site的表 . 我正在使用蟒蛇美丽的汤来做到这一点 . 虽然它在我朋友的Windows机器上产生错误的输出's producing correct output in my Ubuntu 14.04 machine, it' . 我在这里粘贴代码片段: from bs4 import BeautifulSoup def buildURL(agi, families): ... -
7 votesanswersviews
在HTML BeautifulSoup中按文本查找并替换
我正在尝试使用python和BeautifulSoup标记一个HTML文件(字面上用“mark”标签包装字符串) . 问题基本如下...... 说我有我原来的html文档: test = "<h1>oh hey</h1><div>here is some <b>SILLY</b> text</div>" ... -
0 votesanswersviews
使用beautifulsoup 4关闭格式错误的html中的<p>标签
我有一套不那么有效的html页面要刮掉 . 我需要的数据是“p”标签 . 但是,大多数都没有关闭: <p>Bla-bla-bla <p>bla bla <p>more bla-bla <p><span class="some_class">another bla</span> <p>just s... -
0 votesanswersviews
使用BeautifulSoup或lxml解析和修改html . 使用一些html标记包围文本,该标记直接位于<body>标记下
我作为初学者在Python2.7工作 . 我想解析和修改一些html文件 . 为此,我使用Beautiful Soup和lxml也是一种选择 . 现在的问题是我可以通过修改html来包含带有一些html标签的文本 . 文本直接在'body'标签下,所以什么文本直接在body标签下我想修改html,以便我可以在我想要的标签下获取文本 . 所以我可以解析它并轻松找出这个文本的位置 . <html... -
1 votesanswersviews
如何获取音频/视频源WP REST API字段?
我在我的项目中使用WP REST API V2 . 发送Get请求获取帖子后,我看不到包含我的音频/视频wordpress帖子(youtube或soundcloud源)的字段 . 我想知道如何将(音频和视频帖子)的源字段包含在我的请求结果中 . 如果我的帖子是音频或视频帖子: 这些帖子的源字段可以设置为soundcloud或youtube track url: 我需要在获取请求的结果中获取这... -
0 votesanswersviews
beautifulsoup解析html标签异常
我正在从html文件中提取一些信息 . 但是有些文件没有返回的标签 <p class="p p1"> date </p> AttributeError: 'NoneType' object has no attribute 'strip' 并且某些文件中的日期不在标记内 . 我发现一个是: <time content="2005-11-... -
1 votesanswersviews
使用beautifulsoup从span类标记中提取文本
我试图从网站的span类中提取一些文本元素 . 以下是HTML代码的片段: <h1>2 Some address</h1> </div> <div id="smi-summary-items"> <div id="... -
15 votesanswersviews
使用beautifulsoup在换行符之间提取文本(例如<br />标签)
我有一个更大的文档中的以下HTML Important Text 1 Not Important Text Important Text 2 Important Text 3 Non Important Text Important Text 4 我目前正在使用BeautifulSoup来获取HTML中的其他元素,但我无法找到在 标记之间获取重要文本行的方法 . 我可以隔离并...