我用漂亮的汤来刮一个带有 table 的网页 . 对于大多数页面来说,它可以很好地抓取网页,但在某些页面上,糟糕的HTML标签会使响应变得混乱 . 文本应该有一个链接(我不需要链接),但它没有,编码它的人确实留下了一个流浪 </a> 而没有打开标签 . 这导致请求和urllib2的响应提前被切断 .

我正在讨论的HTML示例:

<tr><td><small>03 Feb 2015 3:21:26 AM</small></td><td >Text with no link</a></td>

那个 </a> 标签在响应中切断了表但没有显示,有什么方法可以请求页面的HTML并且只忽略所有 </a> 标签(因为我需要其他标签)?或者忽略 link</a> 形式的所有字符串(因为每次出现都在特定的字符串上) .

我想我可以通过获取原始HTML来实现它,但是如果我使用urllib或者请求他们没有给我原始HTML,他们因为标签而切断了表,并且没有显示导致它的流浪标签 .

解决:原始HTML可以使用此处显示的方法获得How to print raw html string using urllib3?,响应通常打印原始html,但在这种情况下它不是由于错误的标记,但这显示原始HTML甚至是坏标记 .