首页 文章

如何使用BeautifulSoup获取over-line标签内的内容

提问于
浏览
0

我想从HTML代码段中提取内容(“_ The_important_content_”),如下所示:

<div
                                            class="
                                            a:2
                                            c:gray
                                            m:da
                                        "
                                    >
                                         _The_important_content_
                                    </div>

我的代码只是:

for i in soup.findAll('div', class_="a:2 c:gray m:da"):
    print(i.text)

但是因为“class”字段包含新的行符号并且被扩展为多行以使BeautifulSoup无法匹配,所以代码不返回任何内容 . 如何指定正确的类字段并获取内容?

有许多标签具有相同的“类”值和其他“类”值,但我想从具有该特定“类”值的标签中提取内容 .

1 回答

  • 0

    试试这个:

    html='''
    <div
                class="
                a:2
                c:gray
                m:da
            "
        >
             _The_important_content_
        </div>
    '''
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html,"lxml")
    item = soup.select("[class^=]")[0].text
    print(item.strip())
    

    结果:

    _The_important_content_
    

相关问题