首页 文章

我如何弄清楚用什么编码产生一些乱码的中文文本?

提问于
浏览
0

我有一些文本从英文翻译成简体中文 . 但是,当我收到文件时,字符出现乱码 . 因此,例如,我们有一条线描述“ΪÁËÓÐЧ¢¸ßЧμØÊμÏÖÄ¿±ê£¬£îСҪμÄÊÇʲ”,而不是包含我所期望的汉字 .

我已经尝试将上面的字符串粘贴到Python解释器中,将其转换为Unicode,并使用各种中文字符集进行解码,但无济于事 . 有没有人对此有所了解?谢谢 .

1 回答

  • 5

    Chardet

    >>> s = "ΪÁËÓÐЧ¡¢¸ßЧµØʵÏÖÄ¿±ê£¬Äú×îÐèÒªµÄÊÇʲô£¿"
    >>> chardet.detect(s.encode('l1'))
    {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
    >>> s.encode('l1').decode('gb2312')
    '为了有效、高效地实现目标,您最需要的是什么?'
    

相关问题