如何使用BeautifulSoup获取over-line标签内的内容-Java 学习之路

我想从HTML代码段中提取内容（“_ The_important_content_”），如下所示：

<div
                                            class="
                                            a:2
                                            c:gray
                                            m:da
                                        "
                                    >
                                         _The_important_content_
                                    </div>

我的代码只是：

for i in soup.findAll('div', class_="a:2 c:gray m:da"):
    print(i.text)

但是因为“class”字段包含新的行符号并且被扩展为多行以使BeautifulSoup无法匹配，所以代码不返回任何内容 . 如何指定正确的类字段并获取内容？

有许多标签具有相同的“类”值和其他“类”值，但我想从具有该特定“类”值的标签中提取内容 .

1 回答

试试这个：

html='''
<div
            class="
            a:2
            c:gray
            m:da
        "
    >
         _The_important_content_
    </div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"lxml")
item = soup.select("[class^=]")[0].text
print(item.strip())

结果：

_The_important_content_

回复于 2024-04-28T02:47:37+08:00

如何使用BeautifulSoup获取over-line标签内的内容

1 回答

相关问题