-
4 votesanswersviews
e1071套餐:naiveBayes预测很慢
我试图从 R 包 e1071 运行 naiveBayes 分类器 . 我遇到的问题是,预测所花费的时间比训练所花费的时间长了约300倍 . 我想知道是否有其他人观察到这种行为,如果有的话,你是否有任何关于如何改进它的建议 . 此问题仅在某些情况下出现 . 下面,我有一些代码可以训练和预测Iris数据集上的NB分类器 . 在这里,训练和预测时间非常接近(预测需要长10倍而不是300倍) . 我在网上... -
2 votesanswersviews
如何在天真的贝叶斯中获得功能重要性?
我有一个评论数据集,其标签为正/负 . 我正在将Naive Bayes应用于该评论数据集 . 首先,我正在转换成一堆文字 . 这里 sorted_data['Text'] 是评论和 final_counts is a sparse matrix count_vect = CountVectorizer() final_counts = count_vect.fit_transform(sorte... -
0 votesanswersviews
TypeError:传递了稀疏矩阵,但需要密集数据 . 使用X.toarray()转换为密集的numpy数组 . 与NaiveBayes分类器
多项式朴素贝叶斯分类器给出了正确的结果,但另外两个 - 高斯NB和二项式NB不是 . 它给出的错误是: TypeError:传递了稀疏矩阵,但需要密集数据 . 使用X.toarray()转换为密集的numpy数组 . 但即使添加该函数( train_set.toarray() ),错误也是如此 AttributeError:'list'对象没有属性'toarray' 代码是 import ... -
1 votesanswersviews
使用PCA进行文本分类的降维
我正在做文件的文本分类,我有大约4k类和110万个数据样本 . 我正在构建矩阵,其中包含每个文档中的单词频率 . 矩阵样本如下所示 X1 X2 X3 X4 D1 1 1 0 1 D2 1 1 1 0 D3 1 1 0 ... -
2 votesanswersviews
sklearn高斯朴素贝叶斯 - 为什么“高斯”?
我理解贝叶斯定理,但不明白分类器中的“高斯”部分是什么 . 为什么称它为“高斯”? -
1 votesanswersviews
如何使用word2vec训练分类器?
该代码用于生成word2vec并使用它来训练朴素贝叶斯分类器 . 我能够生成word2vec并成功使用相似性函数 . 作为下一步,我想使用word2vec来训练朴素的贝叶斯分类器 . 目前,当我试图在测试和培训中切割数据时,代码给出了错误 . 如何将word2vec模型转换为数组,以便它可以用作训练数据 . #导入库numpy作为np import matplotlib.pyplot作为plt i... -
0 votesanswersviews
带插入符号的Text2Vec分类 - 朴素贝叶斯警告消息
有关更多上下文,请参阅question listed here . 我尝试使用 text2vec 构建的文档术语矩阵,使用 caret 包训练一个朴素的贝叶斯( nb )模型 . 但是,我收到此警告消息: 警告消息:在eval(xpr,envir = envir)中:Fold01的模型拟合失败.Rep1:usekernel = FALSE,fL = 0,adjust = 1 NaiveBayes... -
1 votesanswersviews
在Caret包中使用Naive Bayes分类器时出现警告
我试图在插入符号包中运行一个名为Naive Bayes的监督机器学习分类器 . 我的数据称为LDA.scores,有两个分类因子,称为“V4”和“G8”,以及12个预测变量 . 我正在使用的代码由一个善良的人根据我自己提供的代码堆栈溢出进行调整(参见下面的链接) . 代码确实有效,但是,只使用了9个预测变量而不是数据集中的12个预测变量 . 当我尝试使用总数据集[2:13]训练朴素贝叶斯模型时,代... -
0 votesanswersviews
Multinomial Naive Bayes分类器如何处理类别特征?
我学会了如何使用MLE来获得朴素贝叶斯中类别特征的似然发生概率 . watermelon quality prediction example: color texture quality 1 green clear good 2 black clear good 3 white blur good 4 green blur bad 5 black blur bad ... -
1 votesanswersviews
我应该使用哪种分类算法对这些变量进行文档分类?
我试图在基于文字袋,页面布局,包含或不包含表格的文档中对页面进行分类,特别是搜索页面,具有粗体 Headers 等 . 在这个前提下,我为每个创建了一个 pandas.DataFrame 文献: page totalCharCount matchesOfWordX matchesOfWordY hasFeaturesX hasFeaturesY hasTable... -
508 votesanswersviews
朴素贝叶斯分类的简单解释
我发现很难理解Naive Bayes的过程,我想知道是否有人可以用英语简单的一步一步解释它 . 我理解它需要按时间比较概率,但我不知道训练数据如何与实际数据集相关 . 请给我一个关于训练集扮演什么角色的解释 . 我在这里给出一个非常简单的水果例子,例如香蕉 training set--- round-red round-orange oblong-yellow round-red dataset... -
1 votesanswersviews
计算朴素贝叶斯分类中的概率
我有一个由分类和连续属性组成的数据集 . 我想应用Naive Bayes分类方法对数据进行分类 . 如何计算这两种类型的概率? 我应该使用计数方法计算分类数据并假设一些分布并根据连续数据进行计算吗? -
7 votesanswersviews
多项式朴素贝叶斯参数alpha设置? scikit学习
在进行朴素贝叶斯分类时,有没有人知道如何设置alpha的参数? 例如 . 我首先使用了一堆词来构建特征矩阵,矩阵的每个单元都是单词的计数,然后我使用tf(术语频率)对矩阵进行归一化 . 但是当我使用朴素贝叶斯构建分类器模型时,我选择使用多项式N.B(我认为这是正确的,而不是伯努利和高斯) . 默认的alpha设置是1.0(文档说拉普拉斯平滑,我不知道是什么) . 结果非常糟糕,只有21%的人回想起... -
1 votesanswersviews
sklearn NB分类器:如何获得单个样本的实际概率?
我正在制作一个机器学习程序,它对以下类别之一的单词进行分类:硬件,软件,None_of_these . 我使用sklearn的Multinomial Naive Bayes分类器 . 函数predict()给出了每个单词的预测,但是,我无法看到该单词与预测的类别匹配的实际概率(浮点范围为0到1.0) . 我也没有在sklearn的网站上找到这个 . 是否有一个函数可以给出每个样本的概率? -
0 votesanswersviews
用朴素贝叶斯分类计算“证据”概率
我只是编写了一个朴素贝叶斯分类器进行文本分类,给出了预期的结果 . 我的功能是单词,我的类是文本类 . 我编写了一个多项式朴素贝叶斯分类器 . 但是我希望我的分类器输出实际百分比值... 为此,我必须计算证据概率,如this wikipedia page中所述 . 我没有问题来计算先验和条件概率 . 但是我不知道如何计算证据概率P(X) . 而谈论它的少数文件并不十分清楚 . 我试过了 : P... -
0 votesanswersviews
我们如何使用TFIDF向量与多项式朴素贝叶斯?
假设我们使用TFIDF转换将文档编码为连续值特征 . 我们现在如何使用它作为朴素贝叶斯分类器的输入? Bernoulli naive-bayes已经出局了,因为我们的功能不再是二进制了 .似乎我们也不能使用Multinomial naive-bayes,因为这些值是连续的而不是分类的 . 作为替代方案,使用高斯朴素贝叶斯代替它是否合适?在高斯分布假设下,TFIDF向量是否可能保持良好状态? 关于M... -
0 votesanswersviews
三种朴素贝叶斯分类器的差异
对不起,有些语法错误和误用 . 我目前正在处理文本分类,试图对电子邮件进行分类 . 经过我的研究,我发现Multinomial Naive Bayes和Bernoulli Naive Bayes更常用于文本分类 . 伯努利只关心这个词是否发生 . 多项关心单词的出现次数 . 对于高斯朴素贝叶斯,它通常用于连续数据和具有正态分布的数据,例如:高度,重量但是我们不使用高斯朴素贝叶斯进行文本分类的原因是... -
8 votesanswersviews
是否可以在任何文本分类上应用PCA?
我正在尝试使用python进行分类 . 我正在使用Naive Bayes MultinomialNB分类器用于网页(从网络文本中检索数据形式,稍后我将此文本分类为:web分类) . 现在,我正在尝试对这些数据应用PCA,但是python会给出一些错误 . 我的朴素贝叶斯分类代码: from sklearn import PCA from sklearn import RandomizedPCA f... -
1 votesanswersviews
文本分类NaiveBayes
我试图按类别分类一系列文本示例新闻 . 我有大量数据集的新闻文本与数据库中的类别 . 机器应该训练并决定新闻类别 . public static string[] Tokenize(string text) { StringBuilder sb = new StringBuilder(text); char[] invalid = "!-;':'... -
4 votesanswersviews
为什么Spark ML NaiveBayes输出的标签与训练数据不同?
我在Apache Spark ML(版本1.5.1)中使用NaiveBayes分类器来预测某些文本类别 . 但是,分类器输出的标签与我的训练集中的标签不同 . 我做错了吗? 这是一个可以粘贴到例如Zeppelin笔记本: import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.NaiveBayes ... -
1 votesanswersviews
Naive Bayes v / s Logistic回归? 'Conditional Independence'假设更受限制?
据我了解, Logistic Regression 是 Naive Bayes 的扩展名 . 假设, X = (X_1, X_2........X_N); Y = {0, 1}, each X_i is i.i.d and the P(X_i|Y=y_k) is a Gaussian Distribution. 因此,为了创建 Linear Decision Surface ,我们假设每个pd... -
6 votesanswersviews
获得一个分类报告,说明使用10倍交叉验证的多项式朴素贝叶斯的类精确度和召回率
我有以下代码,它使用NB分类器来解决多类分类问题 . 该函数通过存储精度并稍后打印平均值来预先进行交叉验证 . 我想要的是一个分类报告,指定类别的精确度和召回,而不是最终的平均准确度分数 . import random from sklearn import cross_validation from sklearn.naive_bayes import MultinomialNB ... -
11 votesanswersviews
多级模型的准确性,精确度和召回率
如何从Naive Bayes模型计算每个 class 的准确度,精确度和召回率?我正在使用嵌入式数据集:iris和package tree 以及用于Naive Bayes的包 e1071 . 混淆矩阵如下: prediction setosa versicolor virginica setosa 29 0 0 versicolor ...