首页 文章
  • 8 votes
     answers
     views

    编码风格的监督学习 - 特征选择(Scikit Learn)

    我正在研究是否可以根据编码风格自动计算学生代码的得分 . 这包括避免重复代码,注释掉代码,变量命名错误等等 . 我们正在尝试根据过去学期的作文分数(从1-3开始)学习,这很好地导致了有监督的学习 . 基本思想是我们从学生的提交中提取特征,并创建feature_vector,然后使用scikit-learn通过逻辑回归运行它 . 我们还尝试了各种各样的事情,包括在特征向量上运行PCA以减少维数 . ...
  • 2 votes
     answers
     views

    使用chi2测试进行连续特征选择(Scikit Learn)

    我试图从许多连续特征中预测二元(分类)目标,并希望在进入模型拟合之前缩小特征空间 . 我注意到SKLearn的Feature Selection包中的SelectKBest类在Iris数据集上有以下示例(它还预测来自连续特征的二进制目标): from sklearn.datasets import load_iris from sklearn.feature_selection import Se...
  • -1 votes
     answers
     views

    功能重要性是否随RandomForestRegressor中选择的max_features数量而变化,scikit-learn?

    在我的一个项目中,我试图使用RandomForestRegressor(sklearn)确定我的12个特征中哪个是最能驱动目标变量的因素 . RandomForest很好地为您提供了一个功能重要性列表,解释了哪些功能最适合用于解释目标 . 但是我仍然不确定我的模型的max_features应该是什么,因为默认的答案是使用所有的功能,这意味着我的模型只是袋装的树木集合 . 经过一些discussi...
  • 14 votes
     answers
     views

    找到重要的分类功能

    我正在尝试使用逻辑回归模型对一些EEG数据进行分类(这似乎给出了我数据的最佳分类) . 我的数据来自多通道EEG设置,所以本质上我有一个63 x 116 x 50的矩阵(即通道x时间点x试验次数(有两种试验类型为50),我已将其重新设计为长矢量,每个试验一个 . 我想做的是在分类后看看哪些特征在分类试验中最有用 . 我怎么能这样做,是否有可能测试这些功能的重要性?例如说分类主要是由N特征驱动,这些...
  • 9 votes
     answers
     views

    快速信息增益计算

    我需要在> 10k文档中为 text classification 计算> 100k特征的 Information Gain 分数 . 下面的代码工作正常,但 for the full dataset is very slow - 笔记本电脑上需要一个多小时 . 数据集是20newsgroup,我使用的是scikit-learn, chi2 函数,它在scikit中提供的工作非常快...
  • 7 votes
     answers
     views

    具有RFECV的GridSearchCV在sklearn中的含义

    基于Recursive feature elimination and grid search using scikit-learn,我知道 RFECV 可以与 GridSearchCV 组合以获得更好的模型参数设置,如线性SVM . 如答案所述,有两种方法: “在RFECV上运行GridSearchCV,这将导致数据分成两次折叠(GridSearchCV内部和RFECV内部),但搜索组件数量...
  • 3 votes
     answers
     views

    将自定义函数放入Sklearn管道中

    在我的分类方案中,有几个步骤,包括: SMOTE(合成少数民族过采样技术) Fisher特征选择标准 标准化(Z分数归一化) SVC(支持向量分类器) 在上面的方案中要调整的主要参数是百分位数(2.)和SVC的超参数(4.),我想通过网格搜索进行调整 . 当前的解决方案构建了一个"partial"管道,包括方案 clf = Pipeline([('norma...
  • 85 votes
     answers
     views

    如何确定RandomForestClassifier中的feature_importances?

    我有一个分类任务,时间序列作为数据输入,其中每个属性(n = 23)代表一个特定的时间点 . 除了绝对分类结果,我想知道,哪些属性/日期对结果的贡献程度如何 . 因此我只使用 feature_importances_ ,这对我很有用 . 但是,我想知道如何计算它们以及使用哪种度量/算法 . 很遗憾,我找不到有关此主题的任何文档 .
  • 1 votes
     answers
     views

    使用Caret选择交叉验证折叠内的特征

    在插入符号包中,有没有办法在trainControl的交叉验证方案的折叠中使用递归特征消除函数,该函数传递给使用调整网格的列车函数? 我喜欢递归特征消除功能,但它确实应该应用于交叉验证中的训练折叠,然后在保持折叠上进行测试 . 我已经玩了很多不同的方法来做到这一点,但没有一个是完美的 . 例如,我可以进行自己的交叉验证折叠并使用method ='none'运行trainControl,但不会在列车...
  • 1 votes
     answers
     views

    javascript函数搜索覆盖像素的所有OpenLayers矢量要素

    我有OpenLayers map在矢量图层中绘制要素 . 这些功能是可选择的,并且可以选择弹出窗口 . 不幸的是,在很多情况下功能重叠,因此无法选择某些功能 . 我认为我需要做的就是更改我的选择控件,以便它使用点击处理程序并在此时搜索 Map 中的要素 . 我需要写什么样的功能?以前有没有这方面的例子? 这是功能的绘制方式: var vector_Layer = new OpenLayers.La...
  • 2 votes
     answers
     views

    有没有办法使用带有scikit-learn的非线性模型进行递归特征选择?

    我试图在回归问题上使用SVR与rbf内核(显然) . 我的数据集有300个功能 . 我想选择更多相关的功能,并使用类似于matlab的sequentialfs函数,它会尝试每个组合(或者无论如何从少数变量开始并在路上添加变量,或相反,向后,如scikit的RFE或RFECV )) . 现在,如上所述,对于python,有RFE但我不能将它与非线性估计器一起使用 . 有什么我不知道哪些可以让我使用非...
  • 0 votes
     answers
     views

    决策树中的特征重要性,离散化和标准

    我正在使用数字功能,我想在sklearn中使用决策树分类器来查找要素重要性 . 因此,如果我选择用于分裂的熵标准,则使用信息增益作为分割数据的杂质的度量 . 我猜,这相当于Fayyad和Irani二元离散化 . 最后,分类器返回一个名为“feature importances”的属性 . 功能重要性 . 功能越高,功能越重要 . 特征的重要性计算为该特征带来的标准的(标准化的)总减少量 . 它也...
  • 1 votes
     answers
     views

    使用fitctree训练具有不 balancer 训练集的更敏感模型

    我正在尝试在MATLAB中构建一个用于二进制分类的决策树 . 我为每个实例提供了4个功能 . 正类中有大约25,000个实例,负类中有350,000个实例 . 我已经尝试在分类学习器应用程序和使用fitctree中构建分类器,但两者似乎只是将所有内容都标识为否定类 . 我猜测MATLAB正在构造树以产生最高的“准确度” . 有没有办法将决策树构建为更敏感的模型? (即,而不是“准确性”,我可以使用...
  • 4 votes
     answers
     views

    scikit learn - 在决策树中进行特征重要性计算

    我试图了解如何计算sci-kit学习中的决策树的特征重要性 . 之前已经问过这个问题,但我无法重现算法提供的结果 . 例如: from StringIO import StringIO from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.tree.e...
  • 0 votes
     answers
     views

    功能如何与树木森林一起工作?

    任何人都可以解释如何使用树木来评估特征(feature_importances_)的重要性吗? http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html
  • -1 votes
     answers
     views

    特征与树木森林的重要性

    我试图找出我的功能的重要性,并想了解树林如何运作?根据我的理解,它使决策树和条形图显示该特征解释了多少方差,这反过来显示了特征的重要性 . 我还想看看图表末尾的线条是什么意思? 链接到方法:http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html#sphx-glr-auto-examples...
  • 1 votes
     answers
     views

    功能选择可能保留相关功能吗?

    我的目标是找到区分两个类的最重要的功能 . 使用众多方法之一进行特征选择是有意义的 . 但这是我的问题:我有很多相关的功能 . 通常,功能选择的目标是消除这些冗余功能 . 但这些功能具有语义含义,我希望避免丢失这些信息 . 因此,如果一组相关特征对类变量具有强大的预测能力,我希望它们都被认为是重要的 . (奖金问题:如果我在我的模型中包含十个相关特征,它们的结果权重最终只会是其“实际”重要性的十...
  • 0 votes
     answers
     views

    组特征子集选择

    我正在尝试为分类问题执行特征子集选择,以确定每个 group 的相对优先级 . SKLearn没有意识到这一点 . 如果内置过程执行基于组的子集选择,我很乐意听到它 . 以下是我的数据和代码的表示,用于开始顺序向后逐步过程: feature_set = np.array([[ 1., 1., 88., 42.5, 9., 88., 42.5, 13. ], ...
  • 2 votes
     answers
     views

    如何在scikit-learn中使用随机Logistic回归找到最低正则化参数(C)?

    我正在尝试使用scikit-learn Randomized Logistic Regression特征选择方法,但我一直遇到它在拟合时杀死所有特征的情况,并返回: ValueError: Found array with 0 feature(s) (shape=(777, 0)) while a minimum of 1 is required. 这显然是预期的,因为我正在将正则化参数 C 减少...
  • 0 votes
     answers
     views

    使用R中的FSelector减少数据集

    我是R的新手,我想用它来对我拥有的数据集执行特征选择 . 我找到了FSelector包 . 我看了一下手册,但我有些疑惑 . data(iris) weights <- relief(Species~., iris, neighbours.count = 5, sample.size = 20) subset <- cutoff.k(weights, 2) f <- as.sim...
  • -2 votes
     answers
     views

    随机森林回归的特征选择

    我正在尝试从sklearn训练一个随机森林回归者 . 我想要训练的功能有不同的类型,数字连续,数字分类,文本分类(姓名/国籍),纬度和经度 . 我想知道的是所有功能,如何确定最有用的功能集来训练我的随机森林回归器?
  • 0 votes
     answers
     views

    R中回归林的特征选择和预测精度

    我试图解决输入特征集大小为54的回归问题 . 使用具有单个预测器'X1'的OLS线性回归,我无法解释Y的变化 - 因此我试图使用回归森林(即,随机森林回归)找到其他重要特征 . 之后发现所选的“X1”是最重要的特征 . 我的数据集有大约14500个条目 . 我把它分为训练和测试集,比例为9:1 . 我有以下问题: 在尝试查找重要功能时,我应该在整个数据集上运行回归林,还是只运行训练数据? ...
  • 2 votes
     answers
     views

    如何从PCA实际减少特征尺寸? [重复]

    这个问题在这里已有答案: Matlab - PCA analysis and reconstruction of multi dimensional data 2个答案 我正在尝试使用Matlab中的pca执行降维 . 从下面的代码中,我得到系数,得分,潜在和t平方 . 但是,如何从pc分析中减少实际尺寸仍然是模糊的 . 我想要做的是将列数(在本例中为3)减少到1或2.你能告诉我怎么做吗? m...
  • -1 votes
     answers
     views

    自动编码器中具有少量功能的隐藏节点数

    我有一个数据集,它有2个功能和10000个样本 . 我想将这两个功能转换(集成)为一个功能,以便进一步分析 . 所以我想使用特征提取方法 . 由于两个特征之间的关系不是线性的,我想使用传统PCA以外的方法 . 由于样本的数量远远大于特征的数量,我认为自动编码器是一种很好的特征提取方法 . 但输入功能只有2,那么自动编码器的形状将只有2-1-2,这是一个线性提取 . 是否可以设置隐藏节点多于输入数量...
  • 0 votes
     answers
     views

    情绪分析,特征选择[关闭]

    我想知道分析情绪的每个步骤的适当工具是什么:删除停用词,词干,文本的矢量表示,特征选择,分类,如何从文本的矢量表示传递到特征选择,是否有任何步骤可以遵循描述这些步骤的考试
  • 35 votes
     answers
     views

    相关特征和分类准确性

    我想问一下每个人关于相关特征(变量)如何影响机器学习算法的分类准确性的问题 . 相关特征是指它们之间的相关性,而不是目标类别(即周长和几何图形的面积或教育水平和平均收入)之间的相关性 . 在我看来,相关特征会对分类算法的准确性产生负面影响,我会说,因为相关性使其中一个无用 . 它真的像这样吗?问题是否随分类算法类型的变化而变化?任何关于论文和讲座的建议都非常受欢迎!谢谢
  • 1 votes
     answers
     views

    计算此功能的优点以进行二进制分类

    最终目标是创建一个 binary classifier ,它将为大约10%的实例输出"YES"(基于训练数据) . 分类器将使用 binary, continuous and maybe some categorical features . 目前我正在提取 a continuous feature 范围[0; 1]应该描述产品的真实名称与其在文本字段中的潜在提及之间的相似性...
  • 1 votes
     answers
     views

    回归与分类的特征选择

    新机器学习所以请耐心等待,谢谢!我有三个问题要问,所以如果你在回答时提到问题编号会有所帮助 . 所以我想在应用机器学习算法之前对我的训练数据进行特征选择 . 我将使用相同的数据集在许多不同的ML算法上运行以确定什么是最好的,这样如果我可以只进行一次特征选择并将新数据集传递给各种算法,它将更有效 .注意:我在Python3中编码,我将使用BorutaPy进行功能选择 . [https://gith...
  • 20 votes
     answers
     views

    在Scikit Learn中运行SelectKBest后获取功能名称的最简单方法

    我想进行有监督的学习 . 到现在为止,我知道要对所有功能进行有监督的学习 . 但是,我还想进行K最佳功能的实验 . 我阅读了文档并发现在Scikit中学习了SelectKBest方法 . 不幸的是,我不确定在找到这些最佳功能后如何创建新的数据帧: 让我们假设我想进行5个最佳功能的实验: from sklearn.feature_selection import SelectKBest, f_cla...
  • 6 votes
     answers
     views

    如何sklearn随机森林索引feature_importances_

    我在sklearn中使用了RandomForestClassifier来确定数据集中的重要功能 . 我如何能够返回实际的特征名称(我的变量标记为x1,x2,x3等)而不是它们的相对名称(它告诉我重要的特征是'12','22'等) . 下面是我目前用于返回重要功能的代码 . important_features = [] for x,i in enumerate(rf.feature_importa...

热门问题