-
1 votesanswersviews
Python Sklearn线性回归值误差
我一直在尝试使用sklearn进行线性回归 . 有时我得到一个值错误,有时它工作正常 . 我不知道使用哪种方法 . 错误消息如下: Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Library/Frameworks/Python... -
0 votesanswersviews
sklearn错误ValueError:输入包含NaN,无穷大或对于dtype来说太大的值('float32')
我不熟悉python并且正在尝试使用SKLEARN库在python中运行决策树分类器,当我运行代码时,遇到错误: ValueError:输入包含NaN,无穷大或对于dtype('float32')来说太大的值 我尝试使用我的excel数据表的一个较小的子集,代码能够执行我想要的结果 . 所以我怀疑问题是我的数据集太大了 . 这是导致崩溃的代码: df_X = data_train[['DayO... -
0 votesanswersviews
在PyCharm中安装scipy时出错?
尝试将scipy安装到PyCharm 3.2时出现以下错误: 收集scipy使用缓存的scipy-0.19.0.zip安装收集的软件包:scipy运行setup.py install for scipy:started运行setup.py install for scipy:完成状态'error'完成输出命令C:\ Users \ leigh \ AppData \ Local \ Program... -
1 votesanswersviews
使用roc_auc和roc_auc得分时,测试集上roc_auc的值是否不同?
我有以下数据管道但是有一些混淆解释输出 . 任何帮助深表感谢 . # tune the hyperparameters via a cross-validated grid search from sklearn.ensemble import RandomForestClassifier print("[INFO] tuning hyperparameters via grid se... -
11 votesanswersviews
基于列的sklearn分层抽样
我有一个包含亚马逊评论数据的相当大的CSV文件,我将其读入大熊猫数据框 . 我想将数据分成80-20(训练测试),但在这样做时我想确保分割数据按比例代表一列(类别)的值,即所有不同类别的评论都存在于列车中并按比例测试数据 . 数据如下所示: **ReviewerID** **ReviewText** **Categories** **ProductId** ... -
-1 votesanswersviews
Python Sklearn线性回归不可调用
我正在使用pandas和sklearn实现简单的线性回归和多元线性回归 我的代码如下 import pandas as pd import numpy as np import scipy.stats from sklearn import linear_model from sklearn.metrics import r2_score df = pd.read_csv("Auto.c... -
0 votesanswersviews
sklearn SGDClassifier fit()vs partial_fit()
我对 fit() 的 fit() 和 partial_fit() 方法感到困惑 . 文档说明两者,"Fit linear model with Stochastic Gradient Descent." . 我对随机梯度下降的了解是,它需要一个(或一小部分整体)训练样例来在一次迭代中更新模型的参数 . 并且梯度下降使用每次迭代中的整个数据集 . 我想用逻辑回归训练模型 . 我想... -
0 votesanswersviews
如何将随机森林分类器中每棵树中的每个假样本映射到拟合后的X和y?
我很想知道如何将叶子映射到它的原始X和y . 我试图使用Print the decision path of a specific sample in a random forest classifier,我无法理解如何映射 children_left_ = [t.tree_.children_left for t in estimator.estimators_] children_right_... -
-3 votesanswersviews
当python代码从sklearn移植到java时,会弹出“代码太大”错误
我使用sklearn.porter将我的机器学习模型移植到java.Now当我尝试使用它时,它给出了“代码太大”错误 . 我发现在我的情况下有超出64KB的字节码大小 . 我无法粘贴代码,因为它崩溃了浏览器 . 谢谢 -
4 votesanswersviews
按标签Pandas按整数和列访问行
我的数据是这样的: [第一行是 Headers ] Name,Email,Age Sachith,ko@gmail.com,23 Sim,sm@gmail.com,234 Yoshi,yosi@hotmail.com,2345 sarla,sarla@gmail.com,234 我想访问元素,使行按标签指定为整数和列 . 即对于Sim我想以[1,'Name']等方式访问它 我的问题是我应该使用 ... -
0 votesanswersviews
如何确保随机林中的所有树中都包含一个要素
目前我正在使用sklearn构建一个随机的森林分类器,但我想确保一个特定的功能,我认为是最重要的功能,将包含在所有生成的决策树中 . 最简单的方法是什么?我应该自己实现自定义随机森林算法还是只更改sklearn软件包的源代码?如果是这样,我该如何更改?谢谢! -
2 votesanswersviews
Python sklearn poly回归
我现在坚持解决这个问题两天了 . 我有一些数据点,我放在 scatter plot 并得到这个: 哪个好,但是现在我也想添加一个回归线,所以我从sklearn看了一下example并将代码更改为此 import numpy as np import matplotlib.pyplot as plt from sklearn.pipeline import Pipeline from sklear... -
3 votesanswersviews
获取sklearn中节点的决策路径
我想在scikit-learn中的决策树(DecisionTreeClassifier)中从根节点到给定节点(我提供)的决策路径(即规则集) . clf.decision_path 指定样本经过的节点,这可能有助于获取样本后面的规则集,但是如何将规则集提供给树中的特定节点? -
4 votesanswersviews
调整leaf_size以减少Scikit-Learn KNN中的时间消耗
我试图用手写字符识别来实现KNN,我发现代码的执行需要花费很多时间 . 当添加参数leaf_size值400时,我观察到代码执行所花费的时间显着减少 . 原始代码: knn = KNeighborsClassifier(n_neighbors=3) 新守则: knn = KNeighborsClassifier(n_neighbors=3,leaf_size=400) 我已经阅读了很少关于KD... -
0 votesanswersviews
Logistic回归sklearn - 训练和应用模型
我是机器学习的新手,也是第一次尝试Sklearn . 我有两个数据帧,一个用于训练逻辑回归模型的数据(具有10倍交叉验证),另一个用于使用该模型预测类('0,1') . 到目前为止,这是我的代码,使用了我在Sklearn文档和Web上发现的一些教程: import pandas as pd import numpy as np import sklearn from sklearn.linear_... -
1 votesanswersviews
如何在Scikit-learn中使用稀疏矩阵 Build 多项式特征
我正在使用Scikit-learn将我的火车数据转换为多项式特征,然后将其拟合到线性模型中 . model = Pipeline([('poly', PolynomialFeatures(degree=3)), ('linear', LinearRegression(fit_intercept=False))]) model.fit(X, y) 但它会引发错误 Typ... -
1 votesanswersviews
使随机森林输出像Logistic回归
我问维度明智等我试图用随机森林实现这项惊人的工作https://www.kaggle.com/allunia/how-to-attack-a-machine-learning-model/notebook 逻辑回归和随机森林来自sklearn,但是当我从随机森林模型获得权重时(784,),而逻辑回归返回(10,784) 我的大多数问题主要是维度和NaN,无穷大或者对于使用攻击方法的dtype错误而... -
0 votesanswersviews
在python中动态重命名列名
我有一个数据帧,它会自动生成多个列,如result1,result2,result3,result4等 . 我想重命名最后一个结果,在这种情况下是result4 . 列数每次都是新的,所以我不能使用命令 df.rename(columns={'result4': 'Final_result'}, inplace=True) 我该怎么做?什么命令将有利于实现这一目标? -
0 votesanswersviews
SVM:训练后从Scratch-Generate模型开始
如何在训练后生成我的模型?我并没有使用sklearn包来预测 . 我的代码如下所示: class SVM(object): def __init__(self, kernel=polynomial_kernel, C=None): self.kernel = kernel self.C = C if self.C is not None: self.C = float(s... -
0 votesanswersviews
拟合线性回归挂起很长一段时间 - Dask-ML
我想知道我在这里做错了什么,我找不到任何解释使用Dask ML Build 线性回归的前提条件的文档 . 我有一个名为 Facts 的dask数据帧, def train_model(facts, features_cols, target): """ Train linear regression model from fact table Parameters ...