UnicodeDecodeError：'ascii'编解码器无法解码位置47的字节0x92：序号不在范围内（128）-Java 学习之路

我正在尝试使用Python在StringIO对象中写入数据，然后最终使用psycopg2的copy_from（）函数将此数据加载到postgres数据库中 .

首先，当我这样做时，copy_from（）抛出一个错误：ERROR：编码的无效字节序列"UTF8"：0xc92所以我跟着this question .

我发现我的Postgres数据库有UTF8编码 .

我正在编写数据的文件/ StringIO对象显示其编码如下：setgid非ISO扩展ASCII英文文本，带有很长的行，带有CRLF行终止符

我试图将我写入中间文件/ StringIO对象的每个字符串编码为UTF8格式 . 要做到这一点，每个字符串使用.encode（encoding ='UTF-8'，errors ='strict'）） .

这是我现在得到的错误：UnicodeDecodeError：'ascii'编解码器无法解码位置47的字节0x92：序号不在范围内（128）

这是什么意思？我如何解决它？

编辑：我正在使用Python 2.7我的一些代码：

我从MySQL数据库中读取了根据MySQL Workbench以UTF-8编码的数据 . 这是用于将我的数据（从MySQL db获得）写入StringIO对象的几行代码：

# Populate the table_data variable with rows delimited by \n and columns delimited by \t
row_num=0
for row in cursor.fetchall() :

    # Separate rows in a table by new line delimiter
    if(row_num!=0):
        table_data.write("\n")

    col_num=0
    for cell in row:    
        # Separate cells in a row by tab delimiter
        if(col_num!=0):
            table_data.write("\t") 

        table_data.write(cell.encode(encoding='UTF-8',errors='strict'))
        col_num = col_num+1

    row_num = row_num+1

这是从我的StringIO对象table_data写入Postgres数据库的代码：

cursor = db_connection.cursor()
cursor.copy_from(table_data, <postgres_table_name>)

1 回答

6

问题是你在一个 str 对象上调用 encode .

str 是一个字节字符串，通常表示以某种方式编码的文本，如UTF-8 . 当您在其上调用 encode 时，首先必须将其解码回文本，以便可以重新编码文本 . 默认情况下，Python通过调用 s.decode(sys.getgetdefaultencoding()) 来执行此操作，而 getdefaultencoding() 通常返回 'ascii' .

所以，你说的是UTF-8编码的文本，将其解码为ASCII，然后以UTF-8重新编码 .

一般的解决方案是使用正确的编码显式调用 decode ，而不是让Python使用默认值，然后 encode 结果 .

但是当正确的编码已经是你想要的那个时，更简单的解决方案就是跳过 .decode('utf-8').encode('utf-8') 并使用UTF-8 str 作为它已经存在的UTF-8 str .

或者，如果您的MySQL包装器具有允许您指定编码并返回 CHAR / VARCHAR / TEXT 列而不是 str 值的 unicode 值的功能（例如，在MySQLdb中，您将 use_unicode=True 传递给 connect 调用，或 charset='UTF-8' 如果你的数据库太旧了，无法自动检测它，就这样做 . 然后你将拥有 unicode 个对象，你可以在它们上面调用 .encode('utf-8') .

一般来说，处理Unicode问题的最佳方法是最后一个 - 尽可能早地解码所有内容，以Unicode进行所有处理，然后尽可能晚地进行编码 . 但不管怎样，你必须保持一致 . 不要在可能是 unicode 的事情上调用 str ;不要将 str literal连接到 unicode 或将其传递给 replace 方法;每当你混合搭配时，Python就会使用你的默认编码为你隐式转换，这几乎不是你想要的 .

作为旁注，这是Python 3.x的Unicode更改帮助的许多内容之一 . 首先， str 现在是Unicode文本，而不是编码字节 . 更重要的是，如果你有编码字节，例如在 bytes 对象中，调用 encode 会给你一个 AttributeError 而不是试图静默解码，所以它可以重新编码 . 而且，类似地，尝试混合和匹配Unicode和字节将给你一个明显的 TypeError ，而不是在某些情况下成功的隐式转换，并提供关于你没有在其他情况下要求的编码或解码的神秘消息 .

回复于 2024-04-29T16:15:28+08:00

UnicodeDecodeError：'ascii'编解码器无法解码位置47的字节0x92：序号不在范围内（128）

1 回答

相关问题