Java 学习之路

1 votes

answers

views

R：根据来自另一个data.table的条件“标记”一行

我有一个超过100,000行的data.table（A） . 共有3列 . chrom start end 1: chr1 6484847 6484896 2: chr1 6484896 6484945 3: chr1 6484945 6484994 4: chr1 6484994 6485043 5: chr1 6485043 6485092 --- 183569: chrX 106893605...

r data.table bioinformatics
2 votes

answers

views

具有String :: Approx的多个模糊匹配

我想使用perl在序列文件中找到模糊匹配，并返回字符串中的字符编号，在该字符串中找到匹配的给定数量的替换（假设S = 2） . 例如，如果我的输入文件是： Name1 ACTGTGACCTTT Name2 ACCTTTACTGTG Name3 GACCTTTCTGTG Name4 GCACCTTTTGTG Name5 GCTACCTTTGTG Name6 ACTGACCTTTTG Name7 AC...

string perl bioinformatics matching fuzzy
1 votes

answers

views

在makefile中使用.PHONY目标的模式规则的替代方案？

我正在编写一个用于分析生物数据的管道 . 管道有三个不同的部分，第一个是检查数据的质量，第二个是清理数据，第三个是对齐数据 . 每个部分完成后，我想在继续下一步之前手动检查结果 . 因此，我希望能够使用虚假目标调用每个部分（类似于您调用干净的方式），而不是使用单个模式规则链 . 例如： make analysis.pipeline quality make analysis.pipeline tr...

makefile bioinformatics
0 votes

answers

views

在具有相同功能的不同模型中聚合要素重要性的最佳方法是什么？

我在类似的生物数据集上训练了16种不同的模型来预测特定疾病（目标）的发生，从~17000个生物超途径（特征） . 每个数据集具有相同的功能，但不是相同的模型体系结构 . 此外，一半数据集代表现实世界疾病发生率（~5％），而另一半数据集通过重新采样阳性类别来 balancer . 还有一些其他数据转换，以便每个模型都会强调数据的不同属性 . 以下是所有模型和数据集中要素的索引（来自有序要素重要性的...

python statistics bioinformatics random-forest
2 votes

answers

views

如何使用文件名重命名许多multi-fasta文件中的 Headers ？

我有一个包含数百个多FASTA文件的目录 . 这些文件使用物种或属的名称进行调用，例如： Bubo_bubo.fasta Poa_CC7849.fasta Homo_sapiens.fasta ... 在每个文件中， Headers 由Trinity assembler自动生成，看起来与此示例类似： >c5_g1_i1 len=168 path=[174:0-148 24:148-168]...

bash awk bioinformatics fasta
0 votes

answers

views

bash - 在子目录中重命名fasta标头和文件名 - 追加前缀

我的文件结构的简化示例是： /Assemblies/A_velvet/contigs.fasta /Assemblies/A_velvet/info.log /Assemblies/BB_velvet/contigs.fasta /Assemblies/BB_velvet/info.log 我正在尝试编写一个可以传递Assemblies目录的脚本 - 然后它将：循环遍历每个子目录（A_ve...

bash recursion sed rename bioinformatics
1 votes

answers

views

将文件名添加到循环内的多个fasta文件的fasta标头中

我有10个fasta文件（每个文件包含10个样本中每个样本的20个基因序列） . 我想创建20个文件，特定于10个样本的每个基因 . 我按照以下步骤提取 Headers 中带有file_name的基因： pyfasta extract --header --fasta test.fasta gene_name1 | awk '/^>/ {$0=$0 "_file1"}1'...

bash awk bioinformatics fasta sequencing
1 votes

answers

views

使用for循环构建NumPy数组（列表列表？）

我正在尝试构建一个数组，其中每行包含来自不同序列的k聚体（k长度核苷酸串） . 我一直在读你不能真的有空数组，我很难尝试使用追加 . bases = ['A', 'T', 'C', 'G'] self.profile = np.array([]) for x in range(1): k = self.ksize kmer = [''.join(p) fo...

python arrays python-3.x bioinformatics
1 votes

answers

views

重新复制FASTA，保留seq id

我需要格式化miRNA识别工具（miREAP）的文件 . 我有一个以下格式的fasta文件： >seqID_1 CCCGGCCGTCGAGGC >seqID_2 AGGGCACGCCTGCCTGGGCGTCACGC >seqID_3 CCGCATCAGGTCTCCAAGGTGAACAGCCTCTGGTCGA >seqID_4 CCGCATCAGGTCTCCAAGGTGAAC...

command-line formatting bioinformatics fasta
7 votes

answers

views

使用多个分类器时 - 如何测量整体的性能？ [SciKit学习]

我有一个分类问题（预测一个序列是否属于一个类），我决定使用多种分类方法，以帮助过滤掉误报 . （问题出在生物信息学 - 将蛋白质序列分类为神经肽前体序列 . 如果有人感兴趣，and the code used to generate features and to train a single predictor） . 现在，分类器具有大致相似的性能指标（在10倍CV的训练集上具有83-94％的准...

python machine-learning scikit-learn bioinformatics random-forest
1 votes

answers

views

R中的自定义合并功能

我有一个大型数据集，我想编写一个自定义合并函数与apply一起使用，但我无法解决某个问题 . 我不能使用循环因为它需要太长时间 . 数据大致如下; # [ Name, Strand, Start, End ] R1 = c( 'GeneA', '+', 1000, 1500 ) R2 = c( 'GeneA', '+', 1510, 2000 ) R3 = c( 'GeneA', '+'...

r merge bioinformatics
2 votes

answers

views

根据另一个数据帧的行，设置一个数据帧的列

我想根据另一个数据框的行来分配它的一些列 . 所以这两个数据框如下所示： df1 <- structure(list(ID = structure(c(3L, 1L, 2L, 5L, 4L), .Label = c("cg08", "cg09", "cg29", "cg36", "cg65")...

r subset bioinformatics
2 votes

answers

views

使用awk从fasta文件中选择序列组的问题

我想将我的fasta文件子集化，以检索属于给定总体的序列 . 以下是我的文件示例 . >CLocus_12706_Sample_44_Locus_36326_Allele_0 [JoJo_s113.fq; groupI, 125578, +] TGCAGCATGCTGGTGAACGCGTCATCATAAGCCTGTTGGCGAGCCAGCAGAAGGCGGCATGGGCAGCACTTAATA...

unix awk bioinformatics fasta
3 votes

answers

views

如何在Perl中合并两个FASTA文件（一个带换行符的文件）？

我有两个关注Fasta文件： file1.fasta >0 GAATAGATGTTTCAAATGTACCAATTTCTTTCGATT >1 GTTAAGTTATATCAAACTAAATATACATACTATAAA >2 GGGGCTGTGGATAAAGATAATTCCGGGTTCGAATAC file2.qual >0 40 40 40 40 40 40 40 40 40...

perl bioinformatics fasta
1 votes

answers

views

如何根据序列id组合FASTA序列？

我有9个FASTA文件，代表9个基因的DNA测序 . 每个FASTA文件包含121个序列，代表121个菌株 . 每个序列的名称是每个菌株的id . 但是，在每个文件中，id都没有排序，例如，在gene1.fasta中： >1 AAA >16 TTT >2 GGG ... 在gene2.fasta中： >2 CCC >34 AAA >1 GGG ... 我想将...

r bioinformatics fasta
1 votes

answers

views

如何订购多个Fasta对齐文件

我确信这是一件容易做的事，但我的生物信息学经验非常有限 . 我有许多-100,000-FASTA文件，其中包含相同12种不同基因的比对 . 每个文件看起来像这样： >dmel ACTTTTGATACAATTAAC >dsim AATCCCAGACAAATTAAG >dsec AGTTTTGCAATGGTAAAT >dere TGGAATATTAGACGAATT ... ...

bioinformatics fasta dna-sequence sequence-alignment
1 votes

answers

views

加载“oligo”Bioconductor包时出错

在Windows XP上，更新到R 2.15.3并更新所有库后，我无法再从BioConductor加载“oligo”软件包 . 要重新创建： source("http://bioconductor.org/biocLite.R") #install the BioC installer biocLite("oligo") #download and ins...

r package bioinformatics bioconductor
3 votes

answers

views

“Fortran运行时错误：Amber12中的文件结束”

我正在使用用于分子机械力场的amber12软件来模拟生物分子，我按照下一个链接中描述的安装说明Intallation of amber in Mac OS X该程序实际工作但是当试图执行程序部分软件时它停止并说 Fortran运行时错误：文件结束 1.这就是我的工作，首先访问包含文件的文件夹 N-terminal-2:~ javieralejandrorendoncarrillo$ cd De...

fortran bioinformatics gfortran
3 votes

answers

views

Heatmap.2：在左/上添加行/列标签，无需硬编码坐标

我正在尝试使用heatmap.2重新创建热图，类似于(1)：我可以在底栏和右栏标签上添加“A C G T”标签 . 我正在尝试将“组”名称添加到顶部和左侧轴（“1012T3”等和“G> A”等） . 我已经尝试通过 add.expr 函数执行此操作，但这会将文本覆盖在热图上方，并在我尝试将其移动到热图的左侧时消失 . 我已经能够通过硬编码这样的坐标来添加它(2)： pos1 <- ...

r bioinformatics heatmap dna-sequence

热门问题