BeautifulSoup在BeautifulSoup中处理'<' '>' html标签-Java 学习之路

我有一个unicode字符串 . 在字符串中，我将'\ r'字符替换为字符串中的'<\ p>'，并将其传递给BeautifulSoup进行解析 .

如果我在更换后在字符串后打印，我看到更换正常 . 但是当我将字符串传递给BeautifulSoup时，它会像<和>一样对待它 . 这是为什么？

我似乎与编码有关，但不确定是什么 .

替换字符串

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')

1 回答

2
<\p> 不是结束标记 . 斜线是另一种方式：
```
fileString = fileString.replace('\r', '</p>')
```
回复于 2024-04-29T07:50:40+08:00

BeautifulSoup在BeautifulSoup中处理'<' '>' html标签

1 回答

相关问题