-
0 votesanswersviews
与手动参数设置相比,R插入火车()在J48上表现不佳
我需要使用RWeka的实现( J48() )在我的流失数据集上 optimize the accuracy of the C4.5 algorithm . 因此,我使用插入符号包的 train() 函数来帮助我确定最佳参数设置(对于M和C) . 我尝试通过手动运行 J48() 并使用 train() 确定的参数来验证结果 . 结果令人惊讶,因为 the manual run had a much... -
6 votesanswersviews
我们可以选择在sklearn中使用什么决策树算法吗?
我的问题是我们可以选择在sklearn中使用什么决策树算法吗? 在sklearn的用户指南中,它提到了使用CART算法的优化版本 . 我们可以改用其他算法,比如C4.5吗? -
1 votesanswersviews
决策树Sklearn -Depth树和准确性
我正在使用sklearn将决策树应用于数据集 在Sklearn中,有一个参数可以选择树的深度 - dtree = DecisionTreeClassifier(max_depth = 10) . 我的问题是max_depth参数如何帮助模型 . 高/低max_depth如何帮助更准确地预测测试数据? -
1 votesanswersviews
Weka 3.7.11中的随机树用于数值属性的分裂标准是什么?
我正在使用来自Weka 3.7.11的RandomForest,而后者正在装袋Weka的RandomTree . 我的输入属性是数字,输出属性(标签)也是数字 . 在训练RandomTree时,为树的每个节点随机选择K个属性 . 尝试基于这些属性的若干分裂,并选择“最佳”分裂 . Weka如何确定这个(数字)案例中最好的分裂? 对于名义属性,我认为Weka正在使用基于条件熵的informatio... -
2 votesanswersviews
如何在决策树中获取所有基尼指数?
我使用sklearn做了一个决策树,在这里,在SciKit学习DL包,即 . sklearn.tree.DecisionTreeClassifier().fit(x,y) . 如何获取每个步骤中所有可能节点的gini索引? graphviz 仅给出了具有最低gini索引的节点的gini索引,即用于拆分的节点 . 例如,下面的图片(来自 graphviz )告诉我Pclass_lowVMid... -
0 votesanswersviews
如何将随机森林分类器中每棵树中的每个假样本映射到拟合后的X和y?
我很想知道如何将叶子映射到它的原始X和y . 我试图使用Print the decision path of a specific sample in a random forest classifier,我无法理解如何映射 children_left_ = [t.tree_.children_left for t in estimator.estimators_] children_right_... -
0 votesanswersviews
我如何调整参数?
我有一个用下面的代码编写的决策树模型,我可以知道如何调整参数以使模型的结果更好吗?我可以使用GridsearchCV之类的东西吗?训练数据约为5000,而测试数据约为1000,具有20个以上的特征 . clf_entropy = DecisionTreeClassifier(criterion =“entropy”,random_state = 100,max_depth = 8,min_samp... -
0 votesanswersviews
Matlab - 二进制决策树(学习阈值)
我是这个主题的新手,在分类树方面我并不太了解Matlab文档 . 我想创建一个决策树,它采用矩阵并返回矩阵的每列(样本矢量)的二进制值 . 该决定应由样本矢量的某些特征确定(例如,样本矢量的最大值> 1.2 *其他样本矢量的平均最大值=>返回1) . 我知道这可以通过正常函数来完成,但我希望阈值是可变的,例如我想以某种方式用另一组样本向量来学习它,我已经有了二进制输出 . 我真的很感激... -
7 votesanswersviews
sklearn中的交叉验证决策树
尝试使用sklearn和panads创建具有交叉验证的决策树 . 我的问题是在下面的代码中,交叉验证分割数据,然后我将其用于训练和测试 . 我将尝试通过在不同的最大深度设置下重新创建n次来找到树的最佳深度 . 在使用交叉验证时,我应该使用k folds CV,如果是这样,我将如何在我的代码中使用它? import numpy as np import pandas as pd from sklea... -
-1 votesanswersviews
关于决策树和随机森林分类器(scikit)的疑问
我是决策树的新手,所以这些都是微不足道的问题 . 决策树: 根据scikit doc(http://scikit-learn.org/stable/modules/tree.html),"predict_proba"函数返回每个类的概率,即叶子中同一类的训练样本的分数 . 这到底是什么意思呢 . 随机森林分类器: 在随机森林分类器中采用替换(引导)样本的优势是什么?与粘... -
8 votesanswersviews
为什么带有单个树的Random Forest比决策树分类器好得多?
我通过 scikit-learn 库学习机器学习 . 我使用以下代码将决策树分类器和随机森林分类器应用于我的数据: def decision_tree(train_X, train_Y, test_X, test_Y): clf = tree.DecisionTreeClassifier() clf.fit(train_X, train_Y) return clf.sc... -
0 votesanswersviews
随机森林中子空间采样的重要性是什么?
如果我们不在随机森林算法中使用子空间采样(随机特征选择)会发生什么?我们的模型是否会像单个决策树一样执行? 如何在森林的每棵树中完成子空间采样? 子空间采样如何帮助改进模型? -
-2 votesanswersviews
随机森林与决策树算法
由于随机森林是装箱概念之后的决策树的集合,因此当我们从一个决策树移动到下一个决策树时,最后一个决策树学到的信息如何向前移动到下一个? 因为根据我的理解,没有像训练模型那样为每个决策树创建,然后在下一个决策树开始从错误分类的错误中学习之前加载 . 那它是如何运作的? -
99 votesanswersviews
如何从scikit-learn决策树中提取决策规则?
我可以从决策树中的受过训练的树中提取基础决策规则(或“决策路径”)作为文本列表吗? 就像是: if A>0.4 then if B<0.2 then if C>0.8 then class='X' 谢谢你的帮助 . -
0 votesanswersviews
使用MLlib从Spark的决策树中查找重要性值
我们使用MLlib为Decision Tree运行Spark 1.0或1.1 . 当我使用示例数据运行示例SCALA代码时,它没有错误,但我无法从结果中找到功能重要性 . 任何人都有关于如何获得 Value 的信息? -
0 votesanswersviews
斯卡拉列车分类中的决策树误差
val pdata = sc.parallelize(Seq(data)) val parsedData = data.map { line => val parts = line.split(',') LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split('').map(_.toDouble)))}.ca... -
2 votesanswersviews
将spark决策树模型调试字符串转换为scala中的嵌套JSON
类似于引用here的树json解析,我试图在scala中实现决策树的简单可视化 . 它与数据库笔记本中的显示方法完全相同 . 我是scala的新手,并努力使逻辑正确 . 我知道我们必须进行递归调用来构建子节点并在显示最终预测值时中断 . 我在这里尝试使用下面提到的输入模型调试字符串的代码 def getStatmentType(x: String): (String, String) = { ... -
0 votesanswersviews
如何将决策树与CSV文件中的数据集一起使用? [关闭]
我'd like to use Spark MLlib' s org.apache.spark.mllib.tree.DecisionTree ,如下面的代码,但编译失败 . import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.DecisionTreeClassifier import org... -
0 votesanswersviews
Scala - MaxBins错误 - 决策树 - 分类变量
我的错误类似于这2个帖子,尝试了这些可能性但仍然看到以下错误:: CLOUDERA && STACK OVERFLOW var categoricalFeaturesInfo = Map[Int, Int]() categoricalFeaturesInfo += (0 -> 31) categoricalFeaturesInfo += (1 -&... -
-1 votesanswersviews
Python决策树图像sklearn
我正在使用棒球数据集,其中每一行都是一个单独的音高 . 每列是关于该音调的属性 . 示例1俯仰可以是95英里/小时,2000转/分的旋转速度,100英里/小时的蝙蝠的退出速度等 . 我从下面这个网页的代码中 Build 了一个决策树,并使用俯仰速度和旋转速率来预测该音调是否导致命中 . 我的准确率达到了81%......但谁在乎呢?我需要能够从决策树中获得一些见解 . 例如,我需要能够读取类似的东... -
0 votesanswersviews
将OneHotEncoder用于决策树分类器中的分类特征
我是Python的新手,对于如何使用分类变量实现决策树非常困惑,因为它们在 R 中由 party 和 ctree 自动编码 . 我想制作一个具有两个分类独立特征和一个依赖类的决策树 . 我使用的数据框如下所示: data title_overlap_quartile sales_rank_quartile rank_grp 0 Q4 ... -
1 votesanswersviews
查找sklearn决策树分类器的随机状态
我有一些数据,我正在拟合 sklearn DecisionTreeClassifier . 因为分类器使用了一点随机性,所以我多次运行它并保存最好的模型 . 但是,我希望能够重新训练数据并在不同的机器上获得相同的结果 . 有没有办法在我为每个分类器训练模型后找出最初的 random_state 是什么? EDIT sklearn 模型有一个名为 get_params() 的方法,用于显示输入... -
29 votesanswersviews
将分类数据传递给Sklearn决策树
关于如何将分类数据编码为Sklearn Decission树有几篇帖子,但是从Sklearn文档中我们得到了这些 决策树的一些优点是:(......)能够处理数字和分类数据 . 其他技术通常专门用于分析仅具有一种变量类型的数据集 . 有关更多信息,请参阅算法 但是运行以下脚本 import pandas as pd from sklearn.tree import DecisionTreeCl... -
-1 votesanswersviews
决策树唯一性sklearn
我是机器学习的新手,并且通过Udacity介绍ML课程 . 在适当的时候,我对决策树和随机森林分类器有一些疑问 . 我的第一个疑问是决策树是唯一的吗?我认为它应该是唯一的,因为它最大化信息增益超过每个分割 . 现在如果它是唯一的,为什么在决策树分类器中有random_state参数 . 因为它是唯一的所以它是可重复的每次都没有 . 因为决策树是唯一的,所以不需要random_state . 第二个... -
2 votesanswersviews
python sklearn决策树分类器feature_importances_在使用连续值时具有特征名称
我正在使用具有一些连续功能的sklearn决策树分类器 . 当我运行export_graphviz时,我在多个节点中看到相同的功能并具有不同的值 . 示例: 我想采取最重要的一些,并希望使用feature_importances_ . 问题是feature_importances_是数组而没有引用树节点 . 我有原始的功能,但由于每个人在树中可能不止一次,我不确定如何将重要性与节点联系起来 . -
3 votesanswersviews
确定sklearn决策树中的拆分数量
我使用"fitctree" -function(链接:https://de.mathworks.com/help/stats/classificationtree-class.html)在Matlab中开发了一个决策树(集合) . 现在我想在python中重建相同的集合 . 因此我使用了带有"DecisionTreeClassifier"的sklearn库(... -
0 votesanswersviews
sklearn决策树中的控制节点大小
我试图在sklearn决策树中控制最终节点中的样本编号 . 如您所见,某些节点有一些样本 . 我想保留他们的父节点而不是分裂 . 根据decision tree document . 我发现 min_samples_leaf 和 min_samples_split 可以控制叶节点中的样本编号,可以提供一些帮助 . 是否可以直接控制节点中的样品编号? -
3 votesanswersviews
获取sklearn中节点的决策路径
我想在scikit-learn中的决策树(DecisionTreeClassifier)中从根节点到给定节点(我提供)的决策路径(即规则集) . clf.decision_path 指定样本经过的节点,这可能有助于获取样本后面的规则集,但是如何将规则集提供给树中的特定节点? -
0 votesanswersviews
u'DecisionTreeClassifier被赋予输入无效的标签列标签,没有指定的类数 . 请参见StringIndexer
#Load the CSV file into a RDD irisData = sc.textFile("/home/infademo/surya/iris.csv") irisData.cache() irisData.count() #Remove the first line (contains headers) dataLin... -
7 votesanswersviews
如何从party ::: ctree模型中删除训练数据?
我创建了几个ctree模型(大约40到80),我想要经常评估 . 一个问题是模型对象非常大(40个模型需要超过2.8G的内存),在我看来,他们存储了训练数据,可能是modelname @ data和modelname @ response,而不仅仅是相关的信息预测新数据 . 大多数其他R学习包具有可配置选项,是否将数据包含在模型对象中,但我在文档中找不到任何提示 . 我还尝试通过分配空的Model...