我正在尝试用漂亮的汤来刮取文本,我需要从具有特定类的 Span 内获取文本,但是丢弃同一 Span 内的上标数字与不同的类 . 我可以很容易地使用get_text从span中提取数字和内容,但我最终也得到了上标数字 . 解决方案需要能够丢弃sup标签的每个实例及其文本内容 .
示例HTML:
<span class="woj">
<sup class="versenum">
16
</sup>
The text I want
</span>
我现在得到的:16我想要的文字
我想要的:我想要的文字
1 回答
您可以使用
.sup.extract()
提取所有sup标签