好吧,我的问题很简单,但我找不到合适的答案 . 我需要的是找到一种读取.txt文件的方法,如果有重复的行,则删除所有这些文件,而不是保留一个 . 例如,在.txt中包含以下内容:
1234
1233
1232
1234
输出应该是:
1233
1232
因为代码必须删除重复的行,所有这些行 . 我搜索了所有网络,但它始终指向删除重复行但仍保留其中一个的答案,如this,this或that .
我担心这样做的唯一方法是读取x行并检查整个.txt,如果找到相同的结果,删除并删除x行 . 如果没有,请转到下一行 . 但是我正在检查的.txt文件有50万行(〜900Mb),我不知道我需要多少内存才能完成这类任务,所以我很感激这里有一些帮助 .
3 回答
逐行读取文件,并使用行内容作为关联数组的键,其值是行显示的次数的计数 . 完成后,写出所有值为1的行 . 这将需要与所有唯一行一样多的内存 .
我怀疑只有一个功能可以完成你想要做的所有事情 . 所以,这将其分解为步骤......
首先,我们可以直接将文件加载到数组中吗?请参阅
file
命令的文档现在,我有一个数组中的所有行 . 我想要计算每个条目中有多少 . 请参阅
array_count_values
命令的文档 .现在,我可以轻松地遍历数组并删除count> 1的所有条目
现在,我可以将数组键(它们是值)转换为数组 .
最后,我可以将内容写入文件 .
我想我有一个更优雅的解决方案:
得到: