我有两个我要合并的CSV文件 . 有了熊猫我会用:
pd.merge(df1,df2,how ='left',left_on ='ST_LOGINID',right_on ='LOGINID')
但是,panda执行此操作时内存不足(“MemoryError:”),尽管在返回错误之前,我的RAM使用率仅从4GB的1.9GB变为2.2GB .
我正在寻找这些解决方案中的任何一个:1)执行这种合并/连接操作而不将文件加载到内存中的一种方法2)允许pandas使用更多RAM的一种方法,因为它似乎有足够的内存可用 .
2 回答
试试csvkit:
首先安装:
然后:
如果您有大量的CSV数据,NYSOL's mcmd是最好的 .
它首先运行!
查看更多详情here .