Java 学习之路

0 votes

answers

views

python if语句文本

x =(soup.find_all('p')) if (x.find('British dishes') != -1): print ("TRUE") else: print ("FALSE") 你好，我是 beautifulsoup 的新手，如果P标签匹配或包含特定文本，我正在尝试打印 True 或 False . 我可以打印p标签...

python if-statement beautifulsoup
1 votes

answers

views

将已删除的数据附加到JSON文件

我试图从报废的数据中制作一个json文件 . 但是根据我的函数converToJson（），它会覆盖前一个条目而不会附加 . 是因为我不是在迭代它吗？例如：下面的Json文件将每次使用新数据覆盖第一个条目而不是附加到它 . [{"Volume": "Volume:\n6,061,086", "Price": "$ 41.88&q...

python json selenium-webdriver web-scraping beautifulsoup
0 votes

answers

views

没有在类下找到任何元素的美丽的汤

我正在尝试使用BeautifulSoup webscrape网站的价格：容器类如下所示：我想从该类中检索的对象示例如下所示：但我不知道为什么在包含类 c1_t2i 下没有找到任何对象 . 它始终在 print(len(containers)) 中打印值0 代码如下所示： import bs4 from urllib.request import urlopen as uReq from bs...

python beautifulsoup
3 votes

answers

views

仅使用BeautifulSoup从html中提取除脚本标记内容之外的文本

我有像这样的HTML <span class="age"> Ages 15 <span class="loc" id="loc_loads1"> </span> <script> getCurrentLocationVal("lo...

python python-3.x beautifulsoup urllib3
0 votes

answers

views

Web Scrape多页循环

我试图从网站的25个页面中搜集大约1,000个产品，这些产品是我在url_list中通过其唯一的URL定义的 . 我使用for循环遍历每个URL . 但是，当我将其写入数据帧时，每次迭代都会覆盖结果;因此，我留下了第25页的40个产品 . 如何准确地将每个页面的结果合并到一个df中 . for url in url_list: uClient = uReq(url) page_ht...

python for-loop web-scraping beautifulsoup
0 votes

answers

views

BeautifulSoup匹配不正确的类

我正在使用如下所示的HTML： <td class="hidden-xs BuildingUnit-price" data-sort-value="625000"> <span class="price">$625,000 </span> </td> <td class="...

html python-3.x beautifulsoup
1 votes

answers

views

Python - 如何从脚本中的变量内部提取数据？

我是Python的新手，我正在尝试使用BeautifulSoup从脚本中定义的变量中提取一些数据 . data = soup.find_all('script', type='text/javascript') print(data[0]) <script type="text/javascript"> var myvar = { productid:...

python beautifulsoup
0 votes

answers

views

从标记中检索内容

在我以前的一篇文章中，我能够检索所有p标签 import bs4 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url='https://www.centralpark.com/things-to-do/central-park-zoo/polar-bears/' # op...

python python-3.x beautifulsoup
1 votes

answers

views

不和谐和机器人制作：我似乎无法让我的机器人发布网络解析材料

第一篇文章！是的......所以 . 我制作机器人并遇到了麻烦 . 我似乎不能让我的机器人在调用我写的“stats”命令时在我的不和谐 Channels 中发布网络解析的资料 . 在调用命令时我得到“403未授权”！我试图显示一些统计数据 . 使用的python： import asyncio import datetime from difflib import SequenceMatcher ...

python beautifulsoup html-parsing bots discord
1 votes

answers

views

Python中单行匹配的多行输出

我仍然非常擅长Python，但我正在尝试编写能解析NOAA天气并按照我们的无线电广播顺序显示的代码 . 我已经设法将一个使用python表达式的当前条件列表组合在一起，其中html文件被切割成一个行列表，然后以正确的顺序重新输出，但每个都是一行数据 . 该代码看起来像这样： #other function downloads #http://www.arh.noaa.gov/wmofcst_p...

python list beautifulsoup weather
0 votes

answers

views

保存XML文档，打破了我的XSI声明

我有个问题：我正在使用python xml解析器（beautifulsoup）解析具有命名空间的XML，当我保存该xml时，解析器将使用{http://www.w3.org/2001/XMLSchema-instance}替换名称空间中的"xsi:"我怎么能阻止他这样做呢？例： <project xmlns="http://maven.apache.org/...

python xml beautifulsoup
2 votes

answers

views

如何删除span标记内的span标记

我正在尝试删除span标记中的span标记，但还没有找到解决方案 . 脚本我试过如下： request = 'http://urltargethere/adeas/asd' r = urlopen(request).read() sew = BeautifulSoup(r, 'lxml') results = sew.findAll("span", {"class&q...

python beautifulsoup
1 votes

answers

views

Python3中的简单Web爬虫不生成输出 . 这是怎么回事？

我在运行此处列出的示例代码时遇到问题：https://dev.to/pranay749254/build-a-simple-python-web-crawler . 这是我试图运行的代码： import requests from bs4 import BeautifulSoup def web(page,WebUrl): if(page>0): url = WebU...

python python-3.x web-scraping beautifulsoup web-crawler
2 votes

answers

views

终端不会使用BeautifulSoup显示打印响应

这是我的代码： import requests from bs4 import BeautifulSoup page = requests.get('https://web.archive.org/web/20121007172955/https://www.nga.gov/collection/anZ1.htm') soup = BeautifulSoup(page.text, 'html.p...

python beautifulsoup python-requests
-3 votes

answers

views

两个json对象之间的逗号

我正在从伪xml格式文件创建一个json文件 . 但是我在json对象之间得到了逗号，这是我不想要的 . 这是我得到的样本： [{"a": a , "b": b } , {"a": a , "b": b }] 但是我想要这个： {"a": a , "b": b } {&quot...

python json beautifulsoup
2 votes

answers

views

Asyncio Loop内的Asyncio循环

我刚刚开始使用Asyncio，我正在尝试使用它来解析网站 . 我正在尝试解析网站的6个部分（ self.signals ），每个部分都有N个页面上有表格，所以基本上我试图异步调用哪个部分的循环，并在每个部分中异步页面 . 这就是我到目前为止所拥有的 . class FinViz(): def __init__(self): self.url = 'https://finvi...

python asynchronous beautifulsoup python-3.5 python-asyncio
1 votes

answers

views

用BeautifulSoup替换html标签

我目前正在使用BeautifulSoup重新格式化一些HTML页面，我遇到了一些问题 . 我的问题是原始HTML有这样的事情： <li><p>stff</p></li> 和 <li><div><p>Stuff</p></div></li> 以及 <li><d...

python beautifulsoup
1 votes

answers

views

BeautifulSoup解析器混乱 - HTML

我试图从另一个网站上删除一些内容，我不确定为什么BeautifulSoup正在产生这个输出 . 它只在匹配中找到一个空格，但真正的HTML包含大量的标记 . 如果这对我来说是愚蠢的，我道歉 . 我是python的新手 . 这是我的代码： import sys import os import mechanize import re from BeautifulSoup import Beautif...

beautifulsoup
1 votes

answers

views

python BeautifulSoup在不使用string \ re方法的情况下查找span id名称

我正在尝试获取span标签的id名称 . <td vAlign="top" colSpan="2"><IMG height="25" src="images/spacer.gif" width="1"><br> <!--start table det...

python encoding character-encoding beautifulsoup html
0 votes

answers

views

BeautifulSoup在BeautifulSoup中处理'<' '>' html标签

我有一个unicode字符串 . 在字符串中，我将'\ r'字符替换为字符串中的'<\ p>'，并将其传递给BeautifulSoup进行解析 . 如果我在更换后在字符串后打印，我看到更换正常 . 但是当我将字符串传递给BeautifulSoup时，它会像<和>一样对待它 . 这是为什么？我似乎与编码有关，但不确定是什么 . 替换字符串 fileString.encod...

python beautifulsoup
4 votes

answers

views

使用BeautifulSoup删除不必要的重复标记

我正在使用Python和BeautifulSoup从html中提取一些文本 . 我有一些HTML格式的文本 <h3><b> Abc </b><b> DEF </b> </h3> 我想删除重复的b标签 . 有快速的方法吗？

python beautifulsoup
0 votes

answers

views

beautifulsoup html解析器标签外的单词

我试图使用 beautifulsoup html解析器解析内部和外部标签中的一些文本，但我得到奇怪的格式，特别是在任何标签之外的单词 . 文本在字典中，看起来像这样： ([('<tag1>London</tag1>in<tag2>UK</tag2>', 'Locations')]) for key, value in s.iteritems()...

python beautifulsoup
-1 votes

answers

views

如何使用BeautifulSoup添加<br>标签？

所以，让我说我有 <p>Hello World</p> 可以BeautifulSoup添加一个这样的标签？ <br><p>Hello World</p> 最初，我可以通过以下方式解决这个问题： soup = BeautifulSoup("<p>Hello World<p>") soup = ...

python python-3.x beautifulsoup
1 votes

answers

views

BeautifulSoup lxml解析器关闭标签不应该在哪里

我正在使用BeautifulSoup的lxml解析器来解析一些html . 但是，它没有按照它的编写进行解析 . 例如，以下代码： import bs4 my_html = ''' <html> <body> <B> <P> Hello, I am some bolded text </P> </B> </body&g...

python html beautifulsoup
3 votes

answers

views

lxml / BeautifulSoup解析器警告

使用Python 3，我试图通过使用带有BeautifulSoup的 lxml 来解析丑陋的HTML（不受我的控制），如下所述：http://lxml.de/elementsoup.html 具体来说，我想使用 lxml ，但我是丑陋的HTML和 lxml 将自己拒绝它 . 上面的链接说：“你需要做的就是将它传递给fromstring（）函数：” from lxml.html.soupparser...

python python-3.x beautifulsoup lxml
2 votes

answers

views

Python - 美味汤或在soup.find_all（...）中的条件

我们正在废弃Amazon.in网站以检索任何产品的价格 . 所有产品对'span'标签中的'id'属性具有不同的值，例如; id = 'priceblock_ourprice', id = 'priceblock_saleprice', and id = 'priceblock_dealprice'. 我们的任务是使用Beautiful Soup中的find_all（..）方法检索产品的价格...

python beautifulsoup
256 votes

answers

views

如何按类查找元素

我使用Beautifulsoup解析带有“class”属性的html元素时遇到问题 . 代码看起来像这样 soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"]=="stylelistrow"): pri...

python html beautifulsoup
1 votes

answers

views

提取复选框输入对象的标签值，用美丽的汤代替python中的mechanize

机械化和BeautifulSoup的新手，我很喜欢它 . 我使用了机械化打开URL的原型方法，现在我有了返回的对象： def OpenURL(URL, USERAGENT): br = Browser()# Create a browser br.set_handle_robots(False) # no robots br.set_handle...

python html input beautifulsoup mechanize
0 votes

answers

views

Python 3 Beautiful Soup数据类型不兼容问题

你好堆栈社区！我遇到了一个似乎无法解决的问题，因为看起来大多数问题都适用于Python 2.7 . 我想从网页中拉出一个表，然后只获取linktext而不是整个锚点 . 这是代码：从urllib.request导入urlopen来自bs4 import BeautifulSoup import re url = 'http://www.craftcount.com/category.php?ca...

python beautifulsoup python-3.3
-1 votes

answers

views

使用Beautiful Soup如何返回此值并将其用作整数？ [重复]

这个问题在这里已有答案： Extract Number from String in Python 6个答案这与字符串中的提取数字不同，因为美丽的汤会返回一个美丽的汤对象 . 我有一个本地HTML文件，我使用BeautifulSoup在预代码标签之间打印文本 . 这是我目前的代码 . 来自bs4进口BeautifulSoup f = open（'/ home / stats / trade_...

python beautifulsoup

热门问题