我如何弄清楚用什么编码产生一些乱码的中文文本？-Java 学习之路

我有一些文本从英文翻译成简体中文 . 但是，当我收到文件时，字符出现乱码 . 因此，例如，我们有一条线描述“ÎªÁËÓÐÐ§¢¸ßÐ§μØÊμÏÖÄ¿±ê£¬£îÐ¡ÒªμÄÊÇÊ²”，而不是包含我所期望的汉字 .

我已经尝试将上面的字符串粘贴到Python解释器中，将其转换为Unicode，并使用各种中文字符集进行解码，但无济于事 . 有没有人对此有所了解？谢谢 .

1 回答

>>> s = "ÎªÁËÓÐÐ§¡¢¸ßÐ§µØÊµÏÖÄ¿±ê£¬Äú×îÐèÒªµÄÊÇÊ²Ã´£¿"
>>> chardet.detect(s.encode('l1'))
{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
>>> s.encode('l1').decode('gb2312')
'为了有效、高效地实现目标，您最需要的是什么？'

回复于 2024-04-27T23:05:07+08:00

我如何弄清楚用什么编码产生一些乱码的中文文本？

1 回答

相关问题