-
1 votesanswersviews
具有稀疏矩阵的决策树分类器
我在Google Summer of Code 2013注意到一个可能的项目是为决策树和集合方法实现稀疏矩阵支持 . 出于好奇,这个项目到底在哪里?我真的需要将稀疏特征结合到决策树(并从那里,一个随机森林)来完成一些研究 . 如果尚未添加对决策树的稀疏矩阵支持,是否有任何解决方法? -
1 votesanswersviews
scipy / sklearn稀疏矩阵分解用于文档分类
由于内存错误,我使用足够大的k执行.fit()操作(最大的我只能占数据方差的25%) . 我尝试遵循sklearn分类here,但在进行KNN分类时仍然会耗尽内存 . I'd like to manually do an out-of-core matrix transformation to apply PCA/SVD to the matrix to reduce the dimensio... -
2 votesanswersviews
Scikit-learn(sklearn)PCA在稀疏矩阵上抛出类型错误
从sklearn RandomizedPCA的documentation中,稀疏矩阵被接受为输入 . 然而,当我用稀疏矩阵调用它时,我得到了一个 TypeError : > sklearn.__version__ '0.16.1' > pca = RandomizedPCA(n_components=2) > pca.fit(my_sparce_mat) TypeError: A... -
9 votesanswersviews
使用sklearn在大型稀疏矩阵上执行PCA
我试图在庞大的稀疏矩阵上应用PCA,在下面的链接中它表示sklearn的randomizedPCA可以处理scipy稀疏格式的稀疏矩阵 . Apply PCA on very large sparse matrix 但是,我总是得到错误 . 有人可以指出我做错了什么 . 输入矩阵'X_train'包含float64中的数字: >>>type(X_train) <class... -
0 votesanswersviews
使用具有sklearn亲和力传播的稀疏矩阵
我在使用scipy COO稀疏矩阵作为Affinity传播的输入时遇到了问题,但它与numpy数组完美配合 . 举个例子,说我的相似度矩阵是: [[1.0, 0.9, 0.2] [0.9, 1.0, 0.0] [0.2, 0.0, 1.0]] Numpy矩阵版 import numpy as np import sklearn.cluster simnp = np.array([[1,0.... -
2 votesanswersviews
仅从sklearn CountVectorizer稀疏矩阵中过滤某些单词
我有一个充满了文字的熊猫系列 . 在 sklearn 包中使用 CountVectorizer 函数,我计算了稀疏矩阵 . 我也确定了最重要的词 . 现在我想只为那些顶级单词过滤我的稀疏矩阵 . 原始数据包含多个 7000 行,并包含多个 75000 个单词 . 因此我在这里创建一个示例数据 from sklearn.feature_extraction.text import CountVect... -
1 votesanswersviews
将自定义函数应用于sklearn中的稀疏矩阵
我正在研究一个情绪分析项目 . 我在sklearn上用了一袋文字 . 我想将行正常化,如下所示: a = [1, 0, 1, 0, 0, 0, 0, 1, 0, 1] #a -> 4 non zero values 规范化的向量应该是: [0.25, 0.0, 0.25, 0.0, 0.0, 0.0, 0.0, 0.25, 0.0, 0.25] 对于b - > 8个非零值: b... -
0 votesanswersviews
具有稀疏矩阵的sklearn tsne
我试图在具有预先计算的距离值的非常稀疏的矩阵上显示tsne,但是我遇到了麻烦 . 归结为: row = np.array([0, 2, 2, 0, 1, 2]) col = np.array([0, 0, 1, 2, 2, 2]) distances = np.array([.1, .2, .3, .4, .5, .6]) X = csc_matrix((distances, (row, col)... -
3 votesanswersviews
具有多个功能的Python sklearn决策树分类器?
我正在尝试使用四个功能对训练数据进行预测;我的代码: from sklearn.cross_validation import train_test_split X = iris.data y = iris.target X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_s... -
1 votesanswersviews
sklearn的决策树算法类型
存在不同类型的决策树算法 . ID3,CART,C4.5 . 我需要帮助来确定在Python中使用sklearn DecisionTreeClassifier实现哪种算法? -
-4 votesanswersviews
找不到安装的匹配分发
在尝试使用以下命令安装scikit-learn时: python -m pip install sckit-learn 它抛出一个错误: 找不到满足安装要求的版本(从版本:)找不到匹配的安装分发 虽然,在 site_packages 文件夹 install.py 存在 . How to remove this issue? -
2 votesanswersviews
Keras KerasClassifier gridsearch TypeError:无法pickle _thread.lock对象
以下代码抛出错误:TypeError:无法pickle _thread.lock对象 我可以看到它可能与将前一个方法作为def fit中的函数传递(self,c_m) . 但我认为这是正确的文件:https://keras.io/scikit-learn-api/ 如果有人在我的代码中看到错误,我可能会犯一个新手错误我会很感激帮助 . np.random.seed(7) y_dic = [] c... -
7 votesanswersviews
解释Graphviz输出以进行决策树回归
我很好奇当Graphviz用于回归时, value 字段在决策树的节点中是什么 . 我知道这是使用决策树分类时每个类中由分割分隔的样本数,但我不确定它对回归意味着什么 . 我的数据有2维输入和10维输出 . 以下是我的回归问题树的示例: 使用此代码生成并使用webgraphviz进行可视化 # X = (n x 2) Y = (n x 10) X_test = (m x 2) input_s... -
1 votesanswersviews
SciKit SGD回归RBF核近似
我正在使用scikit-learn,并希望使用RBF内核运行SVR . 我的数据集非常大,所以通过阅读其他帖子,我被建议使用SGD回归和RBF近似 . 有趣的是,与使用SGD本身相比,使用SGD和RBF会导致更糟糕的结果 . 我想这可能是由于参数值错误造成的 . 我试着通过gamma和n_components为RBF采样器循环,并为SGD regessor尝试了许多参数无济于事 . 我也输出了训练... -
0 votesanswersviews
Sklearn的模型在Python中使用很少的数据需要花费太多时间
我一直在使用sklearn的模型(SVM,Logistic回归,MLP,......)直到昨天我没有任何问题,但我不知道为什么,目前当我尝试适合模型时,这需要夸大其词多少时间 . 例如,对于具有6个特征的551个样本,尝试使用多项式内核拟合支持向量机并改变参数: C = 1.00度= 1.00 Coef = 0.000 Gamma = 0.25 15.124秒 . C = 1.00度= 1... -
0 votesanswersviews
scikit-learn决策树回归:检索叶子的所有样本(不是指)
我已经开始使用scikit-learn Decision Trees,到目前为止它运行得很好,但我需要做的一件事就是为叶节点检索一组样本Y值,尤其是在运行预测时 . 给出输入特征向量X,我想知道叶节点处的相应Y值的集合而不仅仅是回归值,这些值是这些值的平均值(或中值) . 当然,人们希望样本均值具有较小的方差,但我确实希望提取实际的Y值集并进行一些统计/创建PDF . 我使用了像这样的代码how ... -
-3 votesanswersviews
scikit-learn的DecisionTreeRegressor能做真正的多输出回归吗?
我遇到了一个需要我们使用多维Y的ML问题 . 现在我们在这个输出的每个维度上训练独立模型,这不利用来自事实输出的附加信息是相关的 . 我一直在阅读this,以了解更多关于已经真正扩展以处理多维输出的少数ML算法 . 决策树就是其中之一 . scikit-learn是否在事件拟合(X,Y)中使用"Multi-target regression trees"给出了多维Y,或者它是否... -
0 votesanswersviews
支持向量回归函数的梯度计算
我训练了一个SVR模型,它必须根据5维输入预测输出值 . 我想在优化问题中使用该模型,并使用回归函数的梯度来改善优化搜索性能 . 我正在使用scikit-learn库和nu-SVR(使用RBF内核)算法 . 以下是我编码的内容 . 但是,当我使用scipy check_grad函数检查渐变值时,差异很大 . 问题是:我可以信任check_grad函数吗?如果是,我的代码中的错误是什么?在此先感谢您... -
0 votesanswersviews
使用支持向量回归的预测
在我的问题中有四个特征(X); a,b,c,d 和两个家属(Y); e,f . 我有一个数据集,其中包含所有这些变量的一组值 . 如果给出新的 a,b,c,d 值,如何通过使用scikit learn in python中的支持向量回归来预测 e,f 变量? 我是ML的新手,我非常感谢一些指导,因为我发现很难按照SVR上的scikit学习文档 . 到目前为止,这是我在sklearn文档中的一... -
5 votesanswersviews
如何测量python中knn分类器的准确性
我用knn来分类我的数据集 . 但我不知道如何衡量训练分类器的准确性 . scikit是否有任何内置函数来检查knn分类器的准确性? from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() knn.fit(training, train_label) predicted = knn.p... -
1 votesanswersviews
你如何将KNN和Adaboost与SKlearn结合起来?
可以用 estimator = KNeighborsClassifier 做adaboost分类器吗? 如果没有,我还能怎样对KNN进行助推? -
0 votesanswersviews
如何拆分KNN数组?
我正在使用KNN的强力算法来查找我的Web服务中的最近邻居 . 这种方法的一个缺点是我需要在每台机器上有足够的内存来为KNN加载整个阵列 . 现在我正在考虑拆分数组,在许多机器上单独执行KNN,然后使用合并排序合并结果 . 但如果客户端需要创建大量连接来查询结果的每个部分,那么这将会很慢 . 我在 sklearn 的文档中读过像 KDTree 和 Balltree 这样的算法,我想知道我是否可以以... -
0 votesanswersviews
工作管道上的GridSearchCV返回ValueError
我正在使用GridSearchCV来查找管道的最佳参数 . 我的管道似乎运作良好,因为我可以申请: pipeline.fit(X_train, y_train) preds = pipeline.predict(X_test) 而且我得到了不错的结果 . 但GridSearchCV显然不喜欢什么,我无法弄明白 . 我的管道: feats = FeatureUnion([('age', age),... -
1 votesanswersviews
用于性别分类的SVM:使用线性内核100%正确结果,但使用RBF的结果更差
我根据 image of a face 为 gender classification 制作了一个小程序 . 我使用Yale face databse(男性为175张图像,女性为相同数字),将它们转换为灰度和均衡直方图,因此在预处理后图像如下所示: 我运行以下代码来测试结果(它使用SVM和 linear 内核): def run_gender_classifier(): Xm, Ym =... -
3 votesanswersviews
sklearn MLPRegressor的Tensorflow副本产生其他结果
我试图在Tensorflow中重现深度学习回归结果 . 如果我使用sklearn的MLPRegressor类训练神经网络,我会得到98%验证的非常好的结果 . MLPRegressor: http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html#sklearn.neural_n... -
69 votesanswersviews
使用scikit-learn分类为多个类别
我正在尝试使用scikit-learn的监督学习方法之一将文本片段分类为一个或多个类别 . 我尝试的所有算法的预测函数只返回一个匹配 . 例如,我有一段文字: "Theaters in New York compared to those in London" 我已经训练了算法为我提供的每个文本片段选择一个地方 . 在上面的例子中,我希望它返回 New York 和 Lond... -
14 votesanswersviews
我在每个 class 都有超过3个元素,但是我得到了这个错误:在scikit-learn中,class不能小于k = 3
这是我的目标(y): target = [7,1,2,2,3,5,4, 1,3,1,4,4,6,6, 7,5,7,8,8,8,5, 3,3,6,2,7,7,1, 10,3,7,10,4,10, 2,2,2,7] 我不知道为什么在执行时:...#将数据集拆分为两个相等的部分X_train,X_test,y_train,y_test = t... -
40 votesanswersviews
Python scikit-learn:导出训练有素的分类器
我正在使用基于scikit-learn的nolearn的DBN(深度信念网络) . 我已经构建了一个可以很好地对我的数据进行分类的网络,现在我有兴趣导出模型进行部署,但我不知道(我每次想要预测某些东西时都在训练DBN) . 在 matlab 中,我只是导出权重矩阵并将其导入另一台机器 . 有人知道如何导出要导入的模型/权重矩阵而无需再次训练整个模型吗? -
0 votesanswersviews
在scikit-learn中没有输出idf_
我在scikit-learn中使用TfidfVectorizor函数 . 我试图使用“use_idf = True”包含tf-idf元素 . 在文档中,它说在此之后,result.idf_应该返回我的idf权重的数组和形状,但我得到“无” . 以下是我的输入和输出 . (我最终试图判断min_df和max_df如何影响我的结果,所以它们现在只是随机值) . tester =TfidfVector... -
0 votesanswersviews
Python机器学习标签和功能
给定一个包含10,000个观测值和50个特征加上一个标签的数据集,X_train,y_train,X_test和y_test的维数是多少,假设列车/测试分割为75%/ 25%?应该是吗? X_train:(2500, 50) y_train: (2500, ) X_test: (7500, 50) y_test: (7500, ) 要么 X_train: (7500, 50) y_train: ...