本文介绍了的grep,awk的或sed的?印刷线路在一个文件匹配图案在另一个文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有超过40.000线(文件1)的文件,我想提取匹配文件2(约6000线)图案的线条。我用grep这样的,但它是非常缓慢:
的grep -f文件2文件1>出

I have a file with more than 40.000 lines (file1) and I want to extract the lines matching patterns in file2 (about 6000 lines). I use grep like this, but it is very slow:grep -f file2 file1 > out

有一个更快的方法来做到这一点使用 AWK SED

Is there a faster way to do this using awk or sed?

下面是一些摘录从我的文件:

Here's some extracts from my files:

File1:
scitn003869.2| scign003869 CGCATGTGTGCATGTATTATCGTATCCCTTG
scitn007747.1| scign007747  CACGCAGACGCAGTGGAGCATTCCAGGTCACAA
scitn003155.1| scign003155  TAAAAATCGTTAGCACTCGCTTGGTACACTAAC
scitn018252.1| scign018252  CGTGTGTGTGCATATGTGTGCATGCGTG
scitn004671.2| scign004671  TCCTCAGGTTTTGAAAGGCAGGGTAAGTGCT

File2:
scign000003
scign000004
scign000005
scign004671
scign000013

`

推荐答案

尝试的grep -Fwf文件2文件1>出

-F 选项指定纯字符串匹配,所以应该更快,而不必搞正则表达式引擎。

The -F option specifies plain string matching, so should be faster without having to engage the regex engine.

这篇关于的grep,awk的或sed的?印刷线路在一个文件匹配图案在另一个文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

09-05 18:37