<xml>
<maintag>
<content> lorem <br>ipsum</br> <strong> dolor sit </strong> and so on </content>
</maintag>
</xml>
我定期解析的xml文件可能在内容标记内部有html标记,如上所示 .
我在这里解析文件:
parser = etree.XMLParser(remove_blank_text=False)
tree = etree.parse(StringIO(xmlFile), parser)
for item in tree.iter('maintag'):
my_content = item.find('content').text
#print my_content
#output: lorem
结果导致my_content ='lorem ' instead of -which i' d喜欢看 - ' lorem < br >ipsum< /br> < strong > dolor sit < /strong > and so on'
我如何阅读内容为“lorem \ n> ipsum </ br> <strong> dolor sit </ strong>等等?”
注意:内容标记可能包含其他html标记而不是强标记 . 可能根本没有它们 .
1 回答
版画
版画