-
0 votesanswersviews
python if语句文本
x =(soup.find_all('p')) if (x.find('British dishes') != -1): print ("TRUE") else: print ("FALSE") 你好,我是 beautifulsoup 的新手,如果P标签匹配或包含特定文本,我正在尝试打印 True 或 False . 我可以打印p标签... -
1 votesanswersviews
将已删除的数据附加到JSON文件
我试图从报废的数据中制作一个json文件 . 但是根据我的函数converToJson(),它会覆盖前一个条目而不会附加 . 是因为我不是在迭代它吗?例如:下面的Json文件将每次使用新数据覆盖第一个条目而不是附加到它 . [{"Volume": "Volume:\n6,061,086", "Price": "$ 41.88&q... -
0 votesanswersviews
没有在类下找到任何元素的美丽的汤
我正在尝试使用BeautifulSoup webscrape网站的价格: 容器类如下所示: 我想从该类中检索的对象示例如下所示: 但我不知道为什么在包含类 c1_t2i 下没有找到任何对象 . 它始终在 print(len(containers)) 中打印值0 代码如下所示: import bs4 from urllib.request import urlopen as uReq from bs... -
3 votesanswersviews
仅使用BeautifulSoup从html中提取除脚本标记内容之外的文本
我有像这样的HTML <span class="age"> Ages 15 <span class="loc" id="loc_loads1"> </span> <script> getCurrentLocationVal("lo... -
0 votesanswersviews
Web Scrape多页循环
我试图从网站的25个页面中搜集大约1,000个产品,这些产品是我在url_list中通过其唯一的URL定义的 . 我使用for循环遍历每个URL . 但是,当我将其写入数据帧时,每次迭代都会覆盖结果;因此,我留下了第25页的40个产品 . 如何准确地将每个页面的结果合并到一个df中 . for url in url_list: uClient = uReq(url) page_ht... -
0 votesanswersviews
BeautifulSoup匹配不正确的类
我正在使用如下所示的HTML: <td class="hidden-xs BuildingUnit-price" data-sort-value="625000"> <span class="price">$625,000 </span> </td> <td class="... -
1 votesanswersviews
Python - 如何从脚本中的变量内部提取数据?
我是Python的新手,我正在尝试使用BeautifulSoup从脚本中定义的变量中提取一些数据 . data = soup.find_all('script', type='text/javascript') print(data[0]) <script type="text/javascript"> var myvar = { productid:... -
0 votesanswersviews
从标记中检索内容
在我以前的一篇文章中,我能够检索所有p标签 import bs4 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url='https://www.centralpark.com/things-to-do/central-park-zoo/polar-bears/' # op... -
1 votesanswersviews
不和谐和机器人制作:我似乎无法让我的机器人发布网络解析材料
第一篇文章!是的......所以 . 我制作机器人并遇到了麻烦 . 我似乎不能让我的机器人在调用我写的“stats”命令时在我的不和谐 Channels 中发布网络解析的资料 . 在调用命令时我得到“403未授权”!我试图显示一些统计数据 . 使用的python: import asyncio import datetime from difflib import SequenceMatcher ... -
1 votesanswersviews
Python中单行匹配的多行输出
我仍然非常擅长Python,但我正在尝试编写能解析NOAA天气并按照我们的无线电广播顺序显示的代码 . 我已经设法将一个使用python表达式的当前条件列表组合在一起,其中html文件被切割成一个行列表,然后以正确的顺序重新输出,但每个都是一行数据 . 该代码看起来像这样: #other function downloads #http://www.arh.noaa.gov/wmofcst_p... -
0 votesanswersviews
保存XML文档,打破了我的XSI声明
我有个问题: 我正在使用python xml解析器(beautifulsoup)解析具有命名空间的XML,当我保存该xml时,解析器将使用{http://www.w3.org/2001/XMLSchema-instance}替换名称空间中的"xsi:"我怎么能阻止他这样做呢? 例: <project xmlns="http://maven.apache.org/... -
2 votesanswersviews
如何删除span标记内的span标记
我正在尝试删除span标记中的span标记,但还没有找到解决方案 . 脚本我试过如下: request = 'http://urltargethere/adeas/asd' r = urlopen(request).read() sew = BeautifulSoup(r, 'lxml') results = sew.findAll("span", {"class&q... -
1 votesanswersviews
Python3中的简单Web爬虫不生成输出 . 这是怎么回事?
我在运行此处列出的示例代码时遇到问题:https://dev.to/pranay749254/build-a-simple-python-web-crawler . 这是我试图运行的代码: import requests from bs4 import BeautifulSoup def web(page,WebUrl): if(page>0): url = WebU... -
2 votesanswersviews
终端不会使用BeautifulSoup显示打印响应
这是我的代码: import requests from bs4 import BeautifulSoup page = requests.get('https://web.archive.org/web/20121007172955/https://www.nga.gov/collection/anZ1.htm') soup = BeautifulSoup(page.text, 'html.p... -
-3 votesanswersviews
两个json对象之间的逗号
我正在从伪xml格式文件创建一个json文件 . 但是我在json对象之间得到了逗号,这是我不想要的 . 这是我得到的样本: [{"a": a , "b": b } , {"a": a , "b": b }] 但是我想要这个: {"a": a , "b": b } {"... -
2 votesanswersviews
Asyncio Loop内的Asyncio循环
我刚刚开始使用Asyncio,我正在尝试使用它来解析网站 . 我正在尝试解析网站的6个部分( self.signals ),每个部分都有N个页面上有表格,所以基本上我试图异步调用哪个部分的循环,并在每个部分中异步页面 . 这就是我到目前为止所拥有的 . class FinViz(): def __init__(self): self.url = 'https://finvi... -
1 votesanswersviews
用BeautifulSoup替换html标签
我目前正在使用BeautifulSoup重新格式化一些HTML页面,我遇到了一些问题 . 我的问题是原始HTML有这样的事情: <li><p>stff</p></li> 和 <li><div><p>Stuff</p></div></li> 以及 <li><d... -
1 votesanswersviews
BeautifulSoup解析器混乱 - HTML
我试图从另一个网站上删除一些内容,我不确定为什么BeautifulSoup正在产生这个输出 . 它只在匹配中找到一个空格,但真正的HTML包含大量的标记 . 如果这对我来说是愚蠢的,我道歉 . 我是python的新手 . 这是我的代码: import sys import os import mechanize import re from BeautifulSoup import Beautif... -
1 votesanswersviews
python BeautifulSoup在不使用string \ re方法的情况下查找span id名称
我正在尝试获取span标签的id名称 . <td vAlign="top" colSpan="2"><IMG height="25" src="images/spacer.gif" width="1"><br> <!--start table det... -
0 votesanswersviews
BeautifulSoup在BeautifulSoup中处理'<' '>' html标签
我有一个unicode字符串 . 在字符串中,我将'\ r'字符替换为字符串中的'<\ p>',并将其传递给BeautifulSoup进行解析 . 如果我在更换后在字符串后打印,我看到更换正常 . 但是当我将字符串传递给BeautifulSoup时,它会像<和>一样对待它 . 这是为什么 ? 我似乎与编码有关,但不确定是什么 . 替换字符串 fileString.encod... -
4 votesanswersviews
使用BeautifulSoup删除不必要的重复标记
我正在使用Python和BeautifulSoup从html中提取一些文本 . 我有一些HTML格式的文本 <h3><b> Abc </b><b> DEF </b> </h3> 我想删除重复的b标签 . 有快速的方法吗? -
0 votesanswersviews
beautifulsoup html解析器标签外的单词
我试图使用 beautifulsoup html解析器解析内部和外部标签中的一些文本,但我得到奇怪的格式,特别是在任何标签之外的单词 . 文本在字典中,看起来像这样: ([('<tag1>London</tag1>in<tag2>UK</tag2>', 'Locations')]) for key, value in s.iteritems()... -
-1 votesanswersviews
如何使用BeautifulSoup添加<br>标签?
所以,让我说我有 <p>Hello World</p> 可以BeautifulSoup添加一个这样的标签? <br><p>Hello World</p> 最初,我可以通过以下方式解决这个问题: soup = BeautifulSoup("<p>Hello World<p>") soup = ... -
1 votesanswersviews
BeautifulSoup lxml解析器关闭标签不应该在哪里
我正在使用BeautifulSoup的lxml解析器来解析一些html . 但是,它没有按照它的编写进行解析 . 例如,以下代码: import bs4 my_html = ''' <html> <body> <B> <P> Hello, I am some bolded text </P> </B> </body&g... -
3 votesanswersviews
lxml / BeautifulSoup解析器警告
使用Python 3,我试图通过使用带有BeautifulSoup的 lxml 来解析丑陋的HTML(不受我的控制),如下所述:http://lxml.de/elementsoup.html 具体来说,我想使用 lxml ,但我是丑陋的HTML和 lxml 将自己拒绝它 . 上面的链接说:“你需要做的就是将它传递给fromstring()函数:” from lxml.html.soupparser... -
2 votesanswersviews
Python - 美味汤或在soup.find_all(...)中的条件
我们正在废弃Amazon.in网站以检索任何产品的价格 . 所有产品对'span'标签中的'id'属性具有不同的值,例如; id = 'priceblock_ourprice', id = 'priceblock_saleprice', and id = 'priceblock_dealprice'. 我们的任务是使用Beautiful Soup中的find_all(..)方法检索产品的价格... -
256 votesanswersviews
如何按类查找元素
我使用Beautifulsoup解析带有“class”属性的html元素时遇到问题 . 代码看起来像这样 soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"]=="stylelistrow"): pri... -
1 votesanswersviews
提取复选框输入对象的标签值,用美丽的汤代替python中的mechanize
机械化和BeautifulSoup的新手,我很喜欢它 . 我使用了机械化打开URL的原型方法,现在我有了返回的对象: def OpenURL(URL, USERAGENT): br = Browser()# Create a browser br.set_handle_robots(False) # no robots br.set_handle... -
0 votesanswersviews
Python 3 Beautiful Soup数据类型不兼容问题
你好堆栈社区! 我遇到了一个似乎无法解决的问题,因为看起来大多数问题都适用于Python 2.7 . 我想从网页中拉出一个表,然后只获取linktext而不是整个锚点 . 这是代码:从urllib.request导入urlopen来自bs4 import BeautifulSoup import re url = 'http://www.craftcount.com/category.php?ca... -
-1 votesanswersviews
使用Beautiful Soup如何返回此值并将其用作整数? [重复]
这个问题在这里已有答案: Extract Number from String in Python 6个答案 这与字符串中的提取数字不同,因为美丽的汤会返回一个美丽的汤对象 . 我有一个本地HTML文件,我使用BeautifulSoup在预代码标签之间打印文本 . 这是我目前的代码 . 来自bs4进口BeautifulSoup f = open('/ home / stats / trade_...