我有一个unicode字符串 . 在字符串中,我将'\ r'字符替换为字符串中的'<\ p>',并将其传递给BeautifulSoup进行解析 .
如果我在更换后在字符串后打印,我看到更换正常 . 但是当我将字符串传递给BeautifulSoup时,它会像<和>一样对待它 . 这是为什么 ?
我似乎与编码有关,但不确定是什么 .
替换字符串
fileString.encode('utf-8')
fileString = re.sub('\r', "/<\p>", fileString)
fileString.encode('utf-8')
htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')
1 回答
<\p>
不是结束标记 . 斜线是另一种方式: