我正在尝试删除span标记中的span标记,但还没有找到解决方案 . 脚本我试过如下:
request = 'http://urltargethere/adeas/asd'
r = urlopen(request).read()
sew = BeautifulSoup(r, 'lxml')
results = sew.findAll("span", {"class": "titles"})
for x in results:
print 'text ==> ', x
the result of print is:
<span class="titles"><span class="times">1 hour ago</span>Lorem ipsum dolor sit amet.</span>
<span class="titles"><span class="times">2 hour ago</span>Tara enim ad minim veniam.</span>
<span class="titles"><span class="times">3 hour ago</span>Morol eiusmodtempor incididunt.</span>
我正在寻找的结果是:
Lorem ipsum dolor sit amet.
Tara enim ad minim veniam.
Morol eiusmodtempor incididunt.
3 回答
试试这个摆脱你不想留下的部分:
输出:
如果您只想要span Headers 类的最终文本,' . contents'将返回span的元素列表(时间 Span 和文本),因此您可以索引所需的索引:
输出:
这可能有所帮助
Demo:
结果: