python - 从已排序的超大文件(每个200G)列表中删除重复项的最佳方法？

其他先前提出的问题未回答我的问题！

我每个都有一系列大文件（200 G），每个文件都经过排序，并包含如下所示的重复项：

 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100|a.ac
 50.21.180.100| b.ac
 50.21.180.100| b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100|b.ac
 50.21.180.100| c.ac
 50.21.180.100| c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100|c.ac
 50.21.180.100| d.ac

预期产量：

50.21.180.100|a.ac
50.21.180.100|b.ac
50.21.180.100|c.ac
50.21.180.100|d.ac

是否有任何机构建议删除这些重复项的最佳方法（在时间和记忆方面）？是Linux bash还是Python或其他语言？

最佳答案

首先删除空间，然后运行uniq：

cat infile.txt | tr -d " " | uniq > outfile.txt

关于python - 从已排序的超大文件(每个200G)列表中删除重复项的最佳方法？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/27354818/