首页 文章

BeautifulSoup在BeautifulSoup中处理'<' '>' html标签

提问于
浏览
0

我有一个unicode字符串 . 在字符串中,我将'\ r'字符替换为字符串中的'<\ p>',并将其传递给BeautifulSoup进行解析 .

如果我在更换后在字符串后打印,我看到更换正常 . 但是当我将字符串传递给BeautifulSoup时,它会像<和>一样对待它 . 这是为什么 ?

我似乎与编码有关,但不确定是什么 .

替换字符串

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')

1 回答

  • 2

    <\p> 不是结束标记 . 斜线是另一种方式:

    fileString = fileString.replace('\r', '</p>')
    

相关问题