python：你如何抓取HTML标签错误的网页？-Java 学习之路

我用漂亮的汤来刮一个带有 table 的网页 . 对于大多数页面来说，它可以很好地抓取网页，但在某些页面上，糟糕的HTML标签会使响应变得混乱 . 文本应该有一个链接（我不需要链接），但它没有，编码它的人确实留下了一个流浪 </a> 而没有打开标签 . 这导致请求和urllib2的响应提前被切断 .

我正在讨论的HTML示例：

<tr><td><small>03 Feb 2015 3:21:26 AM</small></td><td >Text with no link</a></td>

那个 </a> 标签在响应中切断了表但没有显示，有什么方法可以请求页面的HTML并且只忽略所有 </a> 标签（因为我需要其他标签）？或者忽略 link</a> 形式的所有字符串（因为每次出现都在特定的字符串上） .

我想我可以通过获取原始HTML来实现它，但是如果我使用urllib或者请求他们没有给我原始HTML，他们因为标签而切断了表，并且没有显示导致它的流浪标签 .

解决：原始HTML可以使用此处显示的方法获得How to print raw html string using urllib3？，响应通常打印原始html，但在这种情况下它不是由于错误的标记，但这显示原始HTML甚至是坏标记 .

python：你如何抓取HTML标签错误的网页？

相关问题