首页 文章

合并两个没有熊猫的csv

提问于
浏览
2

我有两个我要合并的CSV文件 . 有了熊猫我会用:

pd.merge(df1,df2,how ='left',left_on ='ST_LOGINID',right_on ='LOGINID')

但是,panda执行此操作时内存不足(“MemoryError:”),尽管在返回错误之前,我的RAM使用率仅从4GB的1.9GB变为2.2GB .

我正在寻找这些解决方案中的任何一个:1)执行这种合并/连接操作而不将文件加载到内存中的一种方法2)允许pandas使用更多RAM的一种方法,因为它似乎有足够的内存可用 .

2 回答

  • 3

    试试csvkit

    首先安装:

    pip install csvkit
    

    然后:

    csvjoin -c "ST_LOGINID, LOGINID" --outer file1.csv file2.csv
    
  • -1

    如果您有大量的CSV数据,NYSOL's mcmd是最好的 .

    mjoin k=ST_LOGINID K=LOGINID m=df2.csv i=df1.csv o=output.csv
    

    它首先运行!

    查看更多详情here .

相关问题