-
1 votesanswersviews
解码Unicode时的Python3 RecursionError(适用于BeautifulSoup / RoboBrowser)
我正在使用BeautifulSoup和RoboBrowser处理网络抓取组件,特别是遇到了一个奇怪的问题 . 有问题的页面包含所有其他工作正常的chrome和结构,但它的主要数据字段(一个整齐标记的div)是一个没有换行符的大行(大约3000个日文文本字符) . 它充满了大量的BR标签(他们以相当可怕的方式使用它们来格式化表格......)和一些用于格式化的SPAN标签,但整个正文文本只是一行 ....