首页 文章

pandas在列中使用额外的逗号读取csv

提问于
浏览
8

我正在读一个基本的csv文件,其中列用逗号分隔这些列名:

userid, username, body

但是,body列是一个可能包含逗号的字符串 . 显然这会导致问题,并且大熊猫会抛出错误:

CParserError: Error tokenizing data. C error: Expected 3 fields in line 3, saw 8

有没有办法告诉大熊猫忽略特定列中的逗号或解决此问题的方法?

1 回答

  • 12

    想象一下,我们正在读取名为 comma.csv 的数据框:

    userid, username, body
    01, n1, 'string1, string2'
    

    您可以做的一件事是在列中指定字符串的分隔符:

    df = pd.read_csv('comma.csv', quotechar="'")
    

    在这种情况下,由 ' 分隔的字符串被视为总数,无论它们内部是否有逗号 .

相关问题