问题
When screen-scraping a webpage using python one has to know the character encoding of the page. 如果你得到的字符编码错误,你的输出就会搞砸了 .
人们通常使用一些基本技术来检测编码 . 它们使用标头中的字符集或元标记中定义的字符集,或者使用encoding detector(它不关心元标记或 Headers ) . 通过仅使用这些技术,有时您将无法获得与浏览器相同的结果 .
浏览器这样做:
-
元标记始终优先(或xml定义)
-
当元标记中没有定义字符集时,将使用标头中定义的编码
-
如果根本没有定义编码,那么就是编码检测的时间 .
(嗯......至少这是我认为大多数浏览器都这样做的方式 . 文档非常缺乏 . )
What I'm looking for is a library that can decide the character set of a page the way a browser would. 我'm sure I'我不是第一个需要妥善解决这个问题的人 .
解决方案(我还没试过......)
根据Beautiful Soup's documentation .
美丽的汤按优先级顺序尝试以下编码,将您的文档转换为Unicode:
-
作为fromEncoding参数传递给汤构造函数的编码 .
-
在文档本身中发现的编码:例如,在XML声明中或(对于HTML文档)的http-equiv META标记 . 如果Beautiful Soup在文档中找到这种编码,它会从头开始再次解析文档并尝试新编码 . 唯一的例外是如果您明确指定了编码,并且该编码实际上有效:那么它将忽略它在文档中找到的任何编码 .
-
通过查看文件的前几个字节来嗅探编码 . 如果在此阶段检测到编码,则它将是UTF- *编码,EBCDIC或ASCII之一 .
-
chardet库嗅探的编码(如果已安装) .
-
UTF-8
-
Windows-1252
7 回答
而不是试图获取一个页面,然后找出浏览器将使用的charset,为什么不只是使用浏览器来获取页面并检查它使用什么charset ..
当您使用urllib或urllib2下载文件时,您可以找出是否传输了字符集标头:
您可以使用BeautifulSoup在HTML中查找元素:
如果两者都不可用,浏览器通常会回退到用户配置,并结合自动检测 . 正如rajax建议的那样,您可以使用chardet模块 . 如果您有可用的用户配置,告诉您该页面应该是中文(例如),您可以做得更好 .
BeautifulSoup使用UnicodeDammit进行此操作:Unicode, Dammit
与request.get(url).text或urlopen不同,Scrapy会下载页面并检测其正确的编码 . 为此,它尝试遵循类似浏览器的规则 - 这是最好的规则,因为网站所有者有动力使他们的网站在浏览器中工作 . Scrapy需要在帐户中使用HTTP标头,
<meta>
标签,BOM标记和编码名称的差异 .基于内容的猜测(chardet,UnicodeDammit)本身并不是一个正确的解决方案,因为它可能会失败;当 Headers 或
<meta>
或BOM标记不可用或不提供任何信息时,它应仅用作最后的手段 .您不必使用Scrapy来获取其编码检测功能;它们在一个名为w3lib:https://github.com/scrapy/w3lib的独立库中被释放(与其他一些东西一起) .
要获取页面编码和unicode正文使用w3lib.encoding.html_to_unicode函数,使用基于内容的猜测回退:
使用Universal Encoding Detector:
另一个选择就是使用wget:
看起来你需要一个混合的答案:
使用urllib获取页面
使用美丽的汤或其他方法查找
<meta>
标签如果不存在元标记,请检查urllib返回的标头
如果仍然没有给你答案,请使用通用编码检测器 .
老实说,我不相信你会找到比这更好的东西 .
事实上,如果您在另一个答案的评论中进一步阅读您链接到的常见问题解答,那就是探测器库的作者所倡导的内容 .
如果您相信常见问题解答,这就是浏览器所做的事情(根据原始问题的要求),因为探测器是firefox嗅探代码的一个端口 .
我会为此使用html5lib .