首页 文章
  • 2 votes
     answers
     views

    如何使用文件名重命名许多multi-fasta文件中的 Headers ?

    我有一个包含数百个多FASTA文件的目录 . 这些文件使用物种或属的名称进行调用,例如: Bubo_bubo.fasta Poa_CC7849.fasta Homo_sapiens.fasta ... 在每个文件中, Headers 由Trinity assembler自动生成,看起来与此示例类似: >c5_g1_i1 len=168 path=[174:0-148 24:148-168]...
  • 0 votes
     answers
     views

    在fasta文件中标记重复的标头

    我有一个很大的Fasta文件,我想修改它 . 它基本上由许多序列组成, Headers 以“>”开头 . 我的问题是,即使序列是唯一的,一些 Headers 也不是唯一的 . 例: acrdi | AD19082 STSTAFPLLTQFYGCAIIILVLAMCCSCLVYAMYFMNSSGLQTHESTVTQKVKDFSLQ WLQPILFGCSWRHRLIAKSRRNRSKIQPM...
  • 1 votes
     answers
     views

    使用第一行的一部分重命名FASTA文件

    我想使用第一行的一些信息重命名一些基因组FASTA文件,但我无法弄清楚 . 这是一个例子,两个文件: GCA_000007365.1_ASM736v1_genomic.fna : >AE013218.1 Buchnera aphidicola str. Sg (Schizaphis graminum), complete genome ATGTCAAAGTCGTATTTAAAAAATTTTG...
  • 1 votes
     answers
     views

    将文件名添加到循环内的多个fasta文件的fasta标头中

    我有10个fasta文件(每个文件包含10个样本中每个样本的20个基因序列) . 我想创建20个文件,特定于10个样本的每个基因 . 我按照以下步骤提取 Headers 中带有file_name的基因: pyfasta extract --header --fasta test.fasta gene_name1 | awk '/^>/ {$0=$0 "_file1"}1'...
  • 1 votes
     answers
     views

    根据fasta标头重命名文件

    我从NCBI下载了240个基因组,下载时根据装配数量得到文件名 . 我想根据物种名称而不是它们的汇编号重命名文件,因为这样可以更容易地解释数据 . 我知道一些(很少)python,我真的没有能够自己解决这个问题 . 所以我想做的是写一个循环进入我的文件夹中的每个文件,并根据fasta Headers 重写文件名 文件名示例:GCF_000014225.1_ASM1422v1_genomic.fna...
  • 0 votes
     answers
     views

    写旧的fasta Headers 和新文件

    我想提取旧的fasta名称,看起来像这样: >Bartonella bibbi AUUCCGGUUGAUCCUGCCGGAGGCCACUGCUAUCGGGGUCCG 新 Headers 应如下所示: >Seq1 AUUCCGGUUGAUCCUGCCGGAGGCCACUGCUAUCGGGGUCCG ...... Bartonella Bibbi应该与新名称Seq1一起保存在新文件中,...
  • 0 votes
     answers
     views

    使用序列 Headers 的一部分重命名基因组FASTA文件

    我想用生物体名称(存储在文件中)和标识符(文件名的一部分)重命名FASTA文件 . 所有文件在文件名和存储数据中具有相同的格式,每个文件只有一个FASTA头和相应的序列 . 原始文件名: $ head GCF_000008205.1_ASM820v1_genomic.fna >NC_007295.1 Mycoplasma hyopneumoniae J, complete genome C...
  • 1 votes
     answers
     views

    Grep word在一个文件中,并使用该单词在FASTA文件中匹配,将FASTA序列添加到第一个文件

    我想在file1中grep几个单词,并使用每个单词来grep在file2.fasta中匹配后的内容 . 然后我想将匹配后的内容添加到我用到file03中的单词,以便file03包含来自两个文件的信息 . 我的部分文件是: 文件1: Jan12345: ID1 ID2 ... IDN1 Jan67899: ID11 ID12 ... IDN2 和Fasta文件(file2)这样: >ID1 ...
  • 1 votes
     answers
     views

    如何用R读取多个FASTA文件?

    我有以下问题:我有10个不同的FASTA文件,每个文件中有数千个序列 . 我想从每个fasta文件中读取所有序列,然后(使用paste)创建一个包含所有序列的大文件 . 我的问题如下:如何在同一时间从不同的文件中读取? 我试过了: a<-list.files() 然后 for (x in a) { temp<-read.table(x) seq<-summary(temp) p...
  • 6 votes
     answers
     views

    删除FASTA文件中的换行符

    我有一个fasta文件,用换行符分解序列 . 我想删除换行符 . 这是我的文件的一个例子: >accession1 ATGGCCCATG GGATCCTAGC >accession2 GATATCCATG AAACGGCTTA 我想把它转换成这个: >accession1 ATGGCCCATGGGATCCTAGC >accession2 GATATCCATGAAACGGC...
  • 1 votes
     answers
     views

    使用序列号更改fasta文件的 Headers

    如何使用awk / sed / grep更改文件中更多fasta序列的 Headers ,如: >chromosome1|2199-2200 ---------------------- >chromosome1|3546-3548 ---------------------- >chromosome1|6489-6548 ---------------------- 对此...
  • 17 votes
     answers
     views

    使用SED / AWK将FASTQ转换为FASTA

    我有一个数据,总是以下列格式(称为FASTQ)以四块为单位: @SRR018006.2016 GA2:6:1:20:650 length=36 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGN +SRR018006.2016 GA2:6:1:20:650 length=36 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!+! @SRR018006.19...
  • 1 votes
     answers
     views

    使用Unix命令行工具修改FASTA标头

    我再次陷入修改文本的困境 . 我想改变大文本文件,如: >hg19_ct_UserTrack_3545_691 range=chr1:8121498-8121502 5'pad=0 3'pad=0 strand=+ repeatMasking=none GATGG >hg19_ct_UserTrack_3545_690 range=chr1:8121587-8121591 5'pad=...
  • 1 votes
     answers
     views

    如何使用sed重命名fasta文件头

    我知道这很容易,但我不能让它工作 . 我试图使用sed重命名标头,虽然reg experssion工作,但我无法重命名fasta标头 . 这是一个小例子 . 我有一个多序列fasta文件,如下所示 >Bra000001 CTTATTTTCTCCTTCACCACCGTACCACAGAAAAAAACTGTGATTTTAAA AGCCACATTTACTTCTTTTTTTGTTGGGTCTAAATG...
  • 2 votes
     answers
     views

    使用awk从fasta文件中选择序列组的问题

    我想将我的fasta文件子集化,以检索属于给定总体的序列 . 以下是我的文件示例 . >CLocus_12706_Sample_44_Locus_36326_Allele_0 [JoJo_s113.fq; groupI, 125578, +] TGCAGCATGCTGGTGAACGCGTCATCATAAGCCTGTTGGCGAGCCAGCAGAAGGCGGCATGGGCAGCACTTAATA...
  • 1 votes
     answers
     views

    比较两个文件(fasta和txt),如果匹配,则使用来自txt文件的值为fasta标头添加前缀

    我想根据参考文本文件中的信息更改我的FASTA标头 . 所以说我有两个文件: file1.txt(引用,制表符分隔) chr1:100-1000(+) ORF1_ORF2_ chr2:30-400(-) ORF2_ chr3:50-4500(+) chr4:60-800(-) ORF1_ file2.fasta >chr1:100-1000(+) TTTTGAGAGGA...
  • 0 votes
     answers
     views

    在fasta文件中重命名序列

    我是新手,对这个问题提前抱歉 . 我有一个FASTA文件,想重命名我的序列名称 . 初始记录如下: >TV-B-PCR1_S14_M02625_124_000000000-B85HY_1_1101_14139_4234 CCTA... 我想把它转换成这样的东西: >TV-B-PCR1_1101-14139-4234 CCTA... 非常感谢您的任何帮助表示感谢!
  • 5 votes
     answers
     views

    如何在python中读取fasta文件?

    我正在尝试读取FASTA文件,然后查找特定的motif(string)并打印出它发生的顺序和次数 . FASTA file只是一系列以 Headers 行开头的序列(字符串), Headers 或新序列的开头是">" . 在 Headers 之后的一个新行中是字母序列 . 我没有完成代码但到目前为止我有这个并且它给了我这个错误: AttributeError:'str...
  • 1 votes
     answers
     views

    从两个FASTA文件循环id

    我有两个包含多个序列的fasta文件 cat file1.fasta >1 ACGTCGAT >2 ACTTTATT >3 ACGGGG cat file2.fasta >1 CCGGAGC >2 TGTCAGTC >3 CTACGTCTT 我还有一个每个fasta文件的ID列表,我想用它来按ID提取特定序列,制作一个2序列fasta,然后执行一些操作(对齐...
  • 3 votes
     answers
     views

    如何在Perl中合并两个FASTA文件(一个带换行符的文件)?

    我有两个关注Fasta文件: file1.fasta >0 GAATAGATGTTTCAAATGTACCAATTTCTTTCGATT >1 GTTAAGTTATATCAAACTAAATATACATACTATAAA >2 GGGGCTGTGGATAAAGATAATTCCGGGTTCGAATAC file2.qual >0 40 40 40 40 40 40 40 40 40...
  • 0 votes
     answers
     views

    使用Perl和REGEX连接FASTA文件中的样本的多个序列

    我有超过200个多序列fasta文件,并且在每个fasta文件中,有一些序列可供选择基因的数百个样本(即样本输入fasta文件中的PF3D7_1467550) . fasta文件中的大多数样本(即样本303.1-样本输入文件中的第一个序列)具有一个序列,但是其他样本(即IGS-MLW-089sA和IGS-MWI-254sA)具有需要连接的基因的多个序列一起 . 示例输入fasta文件 >3...
  • -2 votes
     answers
     views

    根据 Headers 拆分多个fasta文件

    我是生物信息学的初学者,我正在尝试从多个fast-fasta文件创建子多个fasta文件 . 所以我有数百个包含fasta线的hundreads的fasta文件(带有 Headers 的序列) . 我想根据物种名称( Headers 中的指示)将这个fasta分成不同的新fasta文件 . 我有这样的文件:CL0073reads.fas >>CL0073reads.fas_ang483...
  • 1 votes
     answers
     views

    如何根据序列id组合FASTA序列?

    我有9个FASTA文件,代表9个基因的DNA测序 . 每个FASTA文件包含121个序列,代表121个菌株 . 每个序列的名称是每个菌株的id . 但是,在每个文件中,id都没有排序,例如,在gene1.fasta中: >1 AAA >16 TTT >2 GGG ... 在gene2.fasta中: >2 CCC >34 AAA >1 GGG ... 我想将...
  • 1 votes
     answers
     views

    如何订购多个Fasta对齐文件

    我确信这是一件容易做的事,但我的生物信息学经验非常有限 . 我有许多-100,000-FASTA文件,其中包含相同12种不同基因的比对 . 每个文件看起来像这样: >dmel ACTTTTGATACAATTAAC >dsim AATCCCAGACAAATTAAG >dsec AGTTTTGCAATGGTAAAT >dere TGGAATATTAGACGAATT ... ...
  • 1 votes
     answers
     views

    重新复制FASTA,保留seq id

    我需要格式化miRNA识别工具(miREAP)的文件 . 我有一个以下格式的fasta文件: >seqID_1 CCCGGCCGTCGAGGC >seqID_2 AGGGCACGCCTGCCTGGGCGTCACGC >seqID_3 CCGCATCAGGTCTCCAAGGTGAACAGCCTCTGGTCGA >seqID_4 CCGCATCAGGTCTCCAAGGTGAAC...
  • 0 votes
     answers
     views

    获得以FASTA中特定氨基酸开始的蛋白质序列的 Headers 行

    嗨,大家好,所以我一直试图使用PERL只打印从FASTA文件以“MAD”或“MAN”(前3个aa)开头的蛋白质序列的 Headers (整个> gi系列) . 但我无法弄清楚哪个部分出了问题 . 提前致谢! #!usr/bin/perl use strict; my $in_file = $ARGV[0]; open( my $FH_IN, "<", $in_fi...
  • 1 votes
     answers
     views

    使用包含递增值的新名称编辑行名称

    这对我来说似乎是一项简单的任务,但让它轻松工作最终会比我想象的更难: 我有一个包含几百万行文本的fasta文件(只有几百个单独的序列条目),这些序列名称很长,我想用 > 替换 > 之后的所有字符,其中 $n 是一个从1开始的整数,是每次更换都会增加 . 示例输入序列名称: >NODE:345643RD:Cov_456:GC47:34thgd ATGTCGATGCGT >NO...
  • 0 votes
     answers
     views

    如何使用awk和条件管道提交qsub作业?

    我有一个文件(fasta),我使用awk从(带有 Headers 的序列)中提取所需的字段 . 然后我将它传递给BLAST程序,最后我将它传递给qsub以便提交作业 . 文件: >sequence_1 ACTGACTGACTGACTG >sequence_2 ACTGGTCAGTCAGTAA >sequence_3 CCGTTGAGTAGAAGAA 和命令(有效): awk &...
  • 4 votes
     answers
     views

    找到DNA序列中所有重复的4聚体 - Perl

    你好, 我尝试编写一个程序,读取包含多个DNA序列的FASTA格式文件,识别序列中所有重复的4聚体(即,多次出现的所有4聚体),并打印出重复的4聚体以及查找它的序列的 Headers . k聚体仅仅是k个核苷酸的序列(例如,“aaca”,“gacg”和“tttt”是4聚体) . 这是我的代码: use strict; use warnings; my $count = -1; my $fil...
  • 2 votes
     answers
     views

    通过已知序列从fasta文件中提取序列和头

    我试图比较两个文件并提取具有其他子集的序列 . 而且,我也想提取标识符 . 但是,我能做的是能够提取包括子集的序列 . 示例文件是: text.fa >header1 ETTTHAASCISATTVQEQ*TLFRLLP >header2 SKSPCSDSDY**AAA >header3 SSGAVAAAPTTA 和, textref.fa >textref.fa CIS...

热门问题