-
1 votesanswersviews
R:根据来自另一个data.table的条件“标记”一行
我有一个超过100,000行的data.table(A) . 共有3列 . chrom start end 1: chr1 6484847 6484896 2: chr1 6484896 6484945 3: chr1 6484945 6484994 4: chr1 6484994 6485043 5: chr1 6485043 6485092 --- 183569: chrX 106893605... -
2 votesanswersviews
具有String :: Approx的多个模糊匹配
我想使用perl在序列文件中找到模糊匹配,并返回字符串中的字符编号,在该字符串中找到匹配的给定数量的替换(假设S = 2) . 例如,如果我的输入文件是: Name1 ACTGTGACCTTT Name2 ACCTTTACTGTG Name3 GACCTTTCTGTG Name4 GCACCTTTTGTG Name5 GCTACCTTTGTG Name6 ACTGACCTTTTG Name7 AC... -
1 votesanswersviews
在makefile中使用.PHONY目标的模式规则的替代方案?
我正在编写一个用于分析生物数据的管道 . 管道有三个不同的部分,第一个是检查数据的质量,第二个是清理数据,第三个是对齐数据 . 每个部分完成后,我想在继续下一步之前手动检查结果 . 因此,我希望能够使用虚假目标调用每个部分(类似于您调用干净的方式),而不是使用单个模式规则链 . 例如: make analysis.pipeline quality make analysis.pipeline tr... -
0 votesanswersviews
在具有相同功能的不同模型中聚合要素重要性的最佳方法是什么?
我在类似的生物数据集上训练了16种不同的模型来预测特定疾病(目标)的发生,从~17000个生物超途径(特征) . 每个数据集具有相同的功能,但不是相同的模型体系结构 . 此外,一半数据集代表现实世界疾病发生率(~5%),而另一半数据集通过重新采样阳性类别来 balancer . 还有一些其他数据转换,以便每个模型都会强调数据的不同属性 . 以下是所有模型和数据集中要素的索引(来自有序要素重要性的... -
2 votesanswersviews
如何使用文件名重命名许多multi-fasta文件中的 Headers ?
我有一个包含数百个多FASTA文件的目录 . 这些文件使用物种或属的名称进行调用,例如: Bubo_bubo.fasta Poa_CC7849.fasta Homo_sapiens.fasta ... 在每个文件中, Headers 由Trinity assembler自动生成,看起来与此示例类似: >c5_g1_i1 len=168 path=[174:0-148 24:148-168]... -
0 votesanswersviews
bash - 在子目录中重命名fasta标头和文件名 - 追加前缀
我的文件结构的简化示例是: /Assemblies/A_velvet/contigs.fasta /Assemblies/A_velvet/info.log /Assemblies/BB_velvet/contigs.fasta /Assemblies/BB_velvet/info.log 我正在尝试编写一个可以传递Assemblies目录的脚本 - 然后它将: 循环遍历每个子目录(A_ve... -
1 votesanswersviews
将文件名添加到循环内的多个fasta文件的fasta标头中
我有10个fasta文件(每个文件包含10个样本中每个样本的20个基因序列) . 我想创建20个文件,特定于10个样本的每个基因 . 我按照以下步骤提取 Headers 中带有file_name的基因: pyfasta extract --header --fasta test.fasta gene_name1 | awk '/^>/ {$0=$0 "_file1"}1'... -
1 votesanswersviews
使用for循环构建NumPy数组(列表列表?)
我正在尝试构建一个数组,其中每行包含来自不同序列的k聚体(k长度核苷酸串) . 我一直在读你不能真的有空数组,我很难尝试使用追加 . bases = ['A', 'T', 'C', 'G'] self.profile = np.array([]) for x in range(1): k = self.ksize kmer = [''.join(p) fo... -
1 votesanswersviews
重新复制FASTA,保留seq id
我需要格式化miRNA识别工具(miREAP)的文件 . 我有一个以下格式的fasta文件: >seqID_1 CCCGGCCGTCGAGGC >seqID_2 AGGGCACGCCTGCCTGGGCGTCACGC >seqID_3 CCGCATCAGGTCTCCAAGGTGAACAGCCTCTGGTCGA >seqID_4 CCGCATCAGGTCTCCAAGGTGAAC... -
7 votesanswersviews
使用多个分类器时 - 如何测量整体的性能? [SciKit学习]
我有一个分类问题(预测一个序列是否属于一个类),我决定使用多种分类方法,以帮助过滤掉误报 . (问题出在生物信息学 - 将蛋白质序列分类为神经肽前体序列 . 如果有人感兴趣,and the code used to generate features and to train a single predictor) . 现在,分类器具有大致相似的性能指标(在10倍CV的训练集上具有83-94%的准... -
1 votesanswersviews
R中的自定义合并功能
我有一个大型数据集,我想编写一个自定义合并函数与apply一起使用,但我无法解决某个问题 . 我不能使用循环因为它需要太长时间 . 数据大致如下; # [ Name, Strand, Start, End ] R1 = c( 'GeneA', '+', 1000, 1500 ) R2 = c( 'GeneA', '+', 1510, 2000 ) R3 = c( 'GeneA', '+'... -
2 votesanswersviews
根据另一个数据帧的行,设置一个数据帧的列
我想根据另一个数据框的行来分配它的一些列 . 所以这两个数据框如下所示: df1 <- structure(list(ID = structure(c(3L, 1L, 2L, 5L, 4L), .Label = c("cg08", "cg09", "cg29", "cg36", "cg65")... -
2 votesanswersviews
使用awk从fasta文件中选择序列组的问题
我想将我的fasta文件子集化,以检索属于给定总体的序列 . 以下是我的文件示例 . >CLocus_12706_Sample_44_Locus_36326_Allele_0 [JoJo_s113.fq; groupI, 125578, +] TGCAGCATGCTGGTGAACGCGTCATCATAAGCCTGTTGGCGAGCCAGCAGAAGGCGGCATGGGCAGCACTTAATA... -
3 votesanswersviews
如何在Perl中合并两个FASTA文件(一个带换行符的文件)?
我有两个关注Fasta文件: file1.fasta >0 GAATAGATGTTTCAAATGTACCAATTTCTTTCGATT >1 GTTAAGTTATATCAAACTAAATATACATACTATAAA >2 GGGGCTGTGGATAAAGATAATTCCGGGTTCGAATAC file2.qual >0 40 40 40 40 40 40 40 40 40... -
1 votesanswersviews
如何根据序列id组合FASTA序列?
我有9个FASTA文件,代表9个基因的DNA测序 . 每个FASTA文件包含121个序列,代表121个菌株 . 每个序列的名称是每个菌株的id . 但是,在每个文件中,id都没有排序,例如,在gene1.fasta中: >1 AAA >16 TTT >2 GGG ... 在gene2.fasta中: >2 CCC >34 AAA >1 GGG ... 我想将... -
1 votesanswersviews
如何订购多个Fasta对齐文件
我确信这是一件容易做的事,但我的生物信息学经验非常有限 . 我有许多-100,000-FASTA文件,其中包含相同12种不同基因的比对 . 每个文件看起来像这样: >dmel ACTTTTGATACAATTAAC >dsim AATCCCAGACAAATTAAG >dsec AGTTTTGCAATGGTAAAT >dere TGGAATATTAGACGAATT ... ... -
1 votesanswersviews
加载“oligo”Bioconductor包时出错
在Windows XP上,更新到R 2.15.3并更新所有库后,我无法再从BioConductor加载“oligo”软件包 . 要重新创建: source("http://bioconductor.org/biocLite.R") #install the BioC installer biocLite("oligo") #download and ins... -
3 votesanswersviews
“Fortran运行时错误:Amber12中的文件结束”
我正在使用用于分子机械力场的amber12软件来模拟生物分子,我按照下一个链接中描述的安装说明Intallation of amber in Mac OS X该程序实际工作但是当试图执行程序部分软件时它停止并说 Fortran运行时错误:文件结束 1.这就是我的工作,首先访问包含文件的文件夹 N-terminal-2:~ javieralejandrorendoncarrillo$ cd De... -
3 votesanswersviews
Heatmap.2:在左/上添加行/列标签,无需硬编码坐标
我正在尝试使用heatmap.2重新创建热图,类似于(1): 我可以在底栏和右栏标签上添加“A C G T”标签 . 我正在尝试将“组”名称添加到顶部和左侧轴(“1012T3”等和“G> A”等) . 我已经尝试通过 add.expr 函数执行此操作,但这会将文本覆盖在热图上方,并在我尝试将其移动到热图的左侧时消失 . 我已经能够通过硬编码这样的坐标来添加它(2): pos1 <- ...