Java 学习之路

1 votes

answers

views

具有稀疏矩阵的决策树分类器

我在Google Summer of Code 2013注意到一个可能的项目是为决策树和集合方法实现稀疏矩阵支持 . 出于好奇，这个项目到底在哪里？我真的需要将稀疏特征结合到决策树（并从那里，一个随机森林）来完成一些研究 . 如果尚未添加对决策树的稀疏矩阵支持，是否有任何解决方法？

python machine-learning scikit-learn
1 votes

answers

views

scipy / sklearn稀疏矩阵分解用于文档分类

由于内存错误，我使用足够大的k执行.fit（）操作（最大的我只能占数据方差的25％） . 我尝试遵循sklearn分类here，但在进行KNN分类时仍然会耗尽内存 . I'd like to manually do an out-of-core matrix transformation to apply PCA/SVD to the matrix to reduce the dimensio...

python scipy scikit-learn sparse-matrix matrix-multiplication
2 votes

answers

views

Scikit-learn（sklearn）PCA在稀疏矩阵上抛出类型错误

从sklearn RandomizedPCA的documentation中，稀疏矩阵被接受为输入 . 然而，当我用稀疏矩阵调用它时，我得到了一个 TypeError ： > sklearn.__version__ '0.16.1' > pca = RandomizedPCA(n_components=2) > pca.fit(my_sparce_mat) TypeError: A...

python scikit-learn sparse-matrix pca
9 votes

answers

views

使用sklearn在大型稀疏矩阵上执行PCA

我试图在庞大的稀疏矩阵上应用PCA，在下面的链接中它表示sklearn的randomizedPCA可以处理scipy稀疏格式的稀疏矩阵 . Apply PCA on very large sparse matrix 但是，我总是得到错误 . 有人可以指出我做错了什么 . 输入矩阵'X_train'包含float64中的数字： >>>type(X_train) <class...

python scikit-learn sparse-matrix pca svd
0 votes

answers

views

使用具有sklearn亲和力传播的稀疏矩阵

我在使用scipy COO稀疏矩阵作为Affinity传播的输入时遇到了问题，但它与numpy数组完美配合 . 举个例子，说我的相似度矩阵是： [[1.0, 0.9, 0.2] [0.9, 1.0, 0.0] [0.2, 0.0, 1.0]] Numpy矩阵版 import numpy as np import sklearn.cluster simnp = np.array([[1,0....

python scipy scikit-learn sparse-matrix
2 votes

answers

views

仅从sklearn CountVectorizer稀疏矩阵中过滤某些单词

我有一个充满了文字的熊猫系列 . 在 sklearn 包中使用 CountVectorizer 函数，我计算了稀疏矩阵 . 我也确定了最重要的词 . 现在我想只为那些顶级单词过滤我的稀疏矩阵 . 原始数据包含多个 7000 行，并包含多个 75000 个单词 . 因此我在这里创建一个示例数据 from sklearn.feature_extraction.text import CountVect...

python pandas scikit-learn sparse-matrix
1 votes

answers

views

将自定义函数应用于sklearn中的稀疏矩阵

我正在研究一个情绪分析项目 . 我在sklearn上用了一袋文字 . 我想将行正常化，如下所示： a = [1, 0, 1, 0, 0, 0, 0, 1, 0, 1] #a -> 4 non zero values 规范化的向量应该是： [0.25, 0.0, 0.25, 0.0, 0.0, 0.0, 0.0, 0.25, 0.0, 0.25] 对于b - > 8个非零值： b...

python scipy scikit-learn linear-algebra sparse-matrix
0 votes

answers

views

具有稀疏矩阵的sklearn tsne

我试图在具有预先计算的距离值的非常稀疏的矩阵上显示tsne，但是我遇到了麻烦 . 归结为： row = np.array([0, 2, 2, 0, 1, 2]) col = np.array([0, 0, 1, 2, 2, 2]) distances = np.array([.1, .2, .3, .4, .5, .6]) X = csc_matrix((distances, (row, col)...

python scikit-learn sparse-matrix dimensionality-reduction
3 votes

answers

views

具有多个功能的Python sklearn决策树分类器？

我正在尝试使用四个功能对训练数据进行预测;我的代码： from sklearn.cross_validation import train_test_split X = iris.data y = iris.target X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_s...

python scikit-learn decision-tree
1 votes

answers

views

sklearn的决策树算法类型

存在不同类型的决策树算法 . ID3，CART，C4.5 . 我需要帮助来确定在Python中使用sklearn DecisionTreeClassifier实现哪种算法？

scikit-learn
-4 votes

answers

views

找不到安装的匹配分发

在尝试使用以下命令安装scikit-learn时： python -m pip install sckit-learn 它抛出一个错误：找不到满足安装要求的版本（从版本:)找不到匹配的安装分发虽然，在 site_packages 文件夹 install.py 存在 . How to remove this issue?

scikit-learn pip
2 votes

answers

views

Keras KerasClassifier gridsearch TypeError：无法pickle _thread.lock对象

以下代码抛出错误：TypeError：无法pickle _thread.lock对象我可以看到它可能与将前一个方法作为def fit中的函数传递（self，c_m） . 但我认为这是正确的文件：https://keras.io/scikit-learn-api/ 如果有人在我的代码中看到错误，我可能会犯一个新手错误我会很感激帮助 . np.random.seed(7) y_dic = [] c...

machine-learning scikit-learn neural-network keras grid-search
7 votes

answers

views

解释Graphviz输出以进行决策树回归

我很好奇当Graphviz用于回归时， value 字段在决策树的节点中是什么 . 我知道这是使用决策树分类时每个类中由分割分隔的样本数，但我不确定它对回归意味着什么 . 我的数据有2维输入和10维输出 . 以下是我的回归问题树的示例：使用此代码生成并使用webgraphviz进行可视化 # X = (n x 2) Y = (n x 10) X_test = (m x 2) input_s...

machine-learning scikit-learn regression graphviz decision-tree
1 votes

answers

views

SciKit SGD回归RBF核近似

我正在使用scikit-learn，并希望使用RBF内核运行SVR . 我的数据集非常大，所以通过阅读其他帖子，我被建议使用SGD回归和RBF近似 . 有趣的是，与使用SGD本身相比，使用SGD和RBF会导致更糟糕的结果 . 我想这可能是由于参数值错误造成的 . 我试着通过gamma和n_components为RBF采样器循环，并为SGD regessor尝试了许多参数无济于事 . 我也输出了训练...

machine-learning scikit-learn
0 votes

answers

views

Sklearn的模型在Python中使用很少的数据需要花费太多时间

我一直在使用sklearn的模型（SVM，Logistic回归，MLP，......）直到昨天我没有任何问题，但我不知道为什么，目前当我尝试适合模型时，这需要夸大其词多少时间 . 例如，对于具有6个特征的551个样本，尝试使用多项式内核拟合支持向量机并改变参数： C = 1.00度= 1.00 Coef = 0.000 Gamma = 0.25 15.124秒 . C = 1.00度= 1...

python scikit-learn svm data-science bigdata
0 votes

answers

views

scikit-learn决策树回归：检索叶子的所有样本（不是指）

我已经开始使用scikit-learn Decision Trees，到目前为止它运行得很好，但我需要做的一件事就是为叶节点检索一组样本Y值，尤其是在运行预测时 . 给出输入特征向量X，我想知道叶节点处的相应Y值的集合而不仅仅是回归值，这些值是这些值的平均值（或中值） . 当然，人们希望样本均值具有较小的方差，但我确实希望提取实际的Y值集并进行一些统计/创建PDF . 我使用了像这样的代码how ...

scikit-learn regression decision-tree
-3 votes

answers

views

scikit-learn的DecisionTreeRegressor能做真正的多输出回归吗？

我遇到了一个需要我们使用多维Y的ML问题 . 现在我们在这个输出的每个维度上训练独立模型，这不利用来自事实输出的附加信息是相关的 . 我一直在阅读this，以了解更多关于已经真正扩展以处理多维输出的少数ML算法 . 决策树就是其中之一 . scikit-learn是否在事件拟合（X，Y）中使用"Multi-target regression trees"给出了多维Y，或者它是否...

python machine-learning scikit-learn
0 votes

answers

views

支持向量回归函数的梯度计算

我训练了一个SVR模型，它必须根据5维输入预测输出值 . 我想在优化问题中使用该模型，并使用回归函数的梯度来改善优化搜索性能 . 我正在使用scikit-learn库和nu-SVR（使用RBF内核）算法 . 以下是我编码的内容 . 但是，当我使用scipy check_grad函数检查渐变值时，差异很大 . 问题是：我可以信任check_grad函数吗？如果是，我的代码中的错误是什么？在此先感谢您...

python scikit-learn svm gradient
0 votes

answers

views

使用支持向量回归的预测

在我的问题中有四个特征（X）; a,b,c,d 和两个家属（Y）; e,f . 我有一个数据集，其中包含所有这些变量的一组值 . 如果给出新的 a,b,c,d 值，如何通过使用scikit learn in python中的支持向量回归来预测 e,f 变量？我是ML的新手，我非常感谢一些指导，因为我发现很难按照SVR上的scikit学习文档 . 到目前为止，这是我在sklearn文档中的一...

python machine-learning scikit-learn svm prediction
5 votes

answers

views

如何测量python中knn分类器的准确性

我用knn来分类我的数据集 . 但我不知道如何衡量训练分类器的准确性 . scikit是否有任何内置函数来检查knn分类器的准确性？ from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() knn.fit(training, train_label) predicted = knn.p...

python python-2.7 machine-learning scikit-learn knn
1 votes

answers

views

你如何将KNN和Adaboost与SKlearn结合起来？

可以用 estimator = KNeighborsClassifier 做adaboost分类器吗？如果没有，我还能怎样对KNN进行助推？

python machine-learning scikit-learn knn
0 votes

answers

views

如何拆分KNN数组？

我正在使用KNN的强力算法来查找我的Web服务中的最近邻居 . 这种方法的一个缺点是我需要在每台机器上有足够的内存来为KNN加载整个阵列 . 现在我正在考虑拆分数组，在许多机器上单独执行KNN，然后使用合并排序合并结果 . 但如果客户端需要创建大量连接来查询结果的每个部分，那么这将会很慢 . 我在 sklearn 的文档中读过像 KDTree 和 Balltree 这样的算法，我想知道我是否可以以...

machine-learning scikit-learn knn
0 votes

answers

views

工作管道上的GridSearchCV返回ValueError

我正在使用GridSearchCV来查找管道的最佳参数 . 我的管道似乎运作良好，因为我可以申请： pipeline.fit(X_train, y_train) preds = pipeline.predict(X_test) 而且我得到了不错的结果 . 但GridSearchCV显然不喜欢什么，我无法弄明白 . 我的管道： feats = FeatureUnion([('age', age),...

python pandas scikit-learn pipeline
1 votes

answers

views

用于性别分类的SVM：使用线性内核100％正确结果，但使用RBF的结果更差

我根据 image of a face 为 gender classification 制作了一个小程序 . 我使用Yale face databse（男性为175张图像，女性为相同数字），将它们转换为灰度和均衡直方图，因此在预处理后图像如下所示：我运行以下代码来测试结果（它使用SVM和 linear 内核）： def run_gender_classifier(): Xm, Ym =...

image-processing classification svm scikit-learn
3 votes

answers

views

sklearn MLPRegressor的Tensorflow副本产生其他结果

我试图在Tensorflow中重现深度学习回归结果 . 如果我使用sklearn的MLPRegressor类训练神经网络，我会得到98％验证的非常好的结果 . MLPRegressor： http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html#sklearn.neural_n...

python tensorflow scikit-learn deep-learning
69 votes

answers

views

使用scikit-learn分类为多个类别

我正在尝试使用scikit-learn的监督学习方法之一将文本片段分类为一个或多个类别 . 我尝试的所有算法的预测函数只返回一个匹配 . 例如，我有一段文字： "Theaters in New York compared to those in London" 我已经训练了算法为我提供的每个文本片段选择一个地方 . 在上面的例子中，我希望它返回 New York 和 Lond...

python classification scikit-learn
14 votes

answers

views

我在每个 class 都有超过3个元素，但是我得到了这个错误：在scikit-learn中，class不能小于k = 3

这是我的目标（y）： target = [7,1,2,2,3,5,4, 1,3,1,4,4,6,6, 7,5,7,8,8,8,5, 3,3,6,2,7,7,1, 10,3,7,10,4,10, 2,2,2,7] 我不知道为什么在执行时：...＃将数据集拆分为两个相等的部分X_train，X_test，y_train，y_test = t...

runtime-error svm scikit-learn cross-validation
40 votes

answers

views

Python scikit-learn：导出训练有素的分类器

我正在使用基于scikit-learn的nolearn的DBN（深度信念网络） . 我已经构建了一个可以很好地对我的数据进行分类的网络，现在我有兴趣导出模型进行部署，但我不知道（我每次想要预测某些东西时都在训练DBN） . 在 matlab 中，我只是导出权重矩阵并将其导入另一台机器 . 有人知道如何导出要导入的模型/权重矩阵而无需再次训练整个模型吗？

python scikit-learn
0 votes

answers

views

在scikit-learn中没有输出idf_

我在scikit-learn中使用TfidfVectorizor函数 . 我试图使用“use_idf = True”包含tf-idf元素 . 在文档中，它说在此之后，result.idf_应该返回我的idf权重的数组和形状，但我得到“无” . 以下是我的输入和输出 . （我最终试图判断min_df和max_df如何影响我的结果，所以它们现在只是随机值） . tester =TfidfVector...

python scikit-learn
0 votes

answers

views

Python机器学习标签和功能

给定一个包含10,000个观测值和50个特征加上一个标签的数据集，X_train，y_train，X_test和y_test的维数是多少，假设列车/测试分割为75％/ 25％？应该是吗？ X_train:(2500, 50) y_train: (2500, ) X_test: (7500, 50) y_test: (7500, ) 要么 X_train: (7500, 50) y_train: ...

python python-3.x machine-learning scikit-learn

热门问题