首页 文章
  • 5 votes
     answers
     views

    gbm和blackboost之间内存使用量的差异

    我正在研究一个拥有大约250000个观测值和50个预测变量的数据库(有些因素最终大约有100个特征)我使用blackboost()函数(来自mboost包)会出现内存分配错误 . 同时,gbm()处理数据量没有问题 . 根据文档,blackboost使用的算法与gbm相同 . (“http://cran.r-project.org/web/packages/mboost/mboost.pdf”)...
  • 2 votes
     answers
     views

    使用交叉验证在“dismo”包中返回gbm.step函数的值

    我正在尝试使用dismo包中的gbm.step函数来使用交叉验证来适应gbm模型 . 根据dismo文档(https://cran.r-project.org/web/packages/dismo/dismo.pdf,第32页),gbm.step的返回值是一个gbm对象 . gbm对象具有"cv.fitted"值,该值指的是交叉验证预测值(https://cran.r-pro...
  • 0 votes
     answers
     views

    R caret gbm分类,predict.gbm(...,type =“response)和gtm的插入符号预测(...,type =”prob“)不匹配

    亲爱的机器学习和R朋友, 我注意到,在相同的模型调整参数下,使用虹膜数据集进行演示时,直接使用gbm训练gbm模型或使用插入符包的训练函数导致分类模型的不同结果(请参阅下面的代码,使用虹膜数据集进行演示): 1)gbm使用多项分布预测因子导致不同的类概率,而不是来自插入符号包的列车模型的预备 . 或者充其量只是奇怪地按比例缩小到0.5 . - 怎么了? 2)gbm预测类顺序与插入符号预测不同(g...
  • 2 votes
     answers
     views

    可以用验证模型做预测整个数据集吗?

    我们一直在大约15k行的数据集上运行'gbm'模型 . 我们已经直接实现了10次交叉验证,得出了一个交叉验证的模型,我们用它来再次预测同一个数据集 . 这导致可能过度拟合的模型具有约0.99训练AUC和0.92cv AUC . 预测AUC也非常高,约为0.99 . 审稿人要求我们使用holdout数据集验证模型 . 我们假设我们将数据分成保持数据和训练数据 . 然后训练数据将再次进行kfold交叉...
  • 0 votes
     answers
     views

    如何在gbm包中定义权重,为类不 balancer 数据集(gbm)定义Kappa统计量

    我想找到一种方法来为插入符号包中的gbm定义权重 . “caret”包的“train”函数中有一个参数“weights”,但描述中写着“此参数只会影响允许大小写权重的模型” . 根据我的理解,“gbm”确实支持定义权重,但我不知道定义权重的格式 . 它只是c(1,10) - 其中1是多数类,10是少数类? 第二个问题是关于Kappa统计数据 . 我读到Kappa对于类不 balancer 数据集...
  • 6 votes
     answers
     views

    使用GBM的插入错误,但不是没有插入符号

    我一直在使用 gbm 到 caret 没有问题,但是当从我的数据帧中删除一些变量时它开始失败 . 我已经尝试了所提到的包的github和cran版本 . 这是错误: > fitRF = train(my_data[trainIndex,vars_for_clust], clusterAssignment[trainIndex], method = "gbm", verbo...
  • 2 votes
     answers
     views

    Caret ref gbm ROC

    我正在尝试使用来自插入包的rfe函数,但我不能使用ROC指标使其适用于gbm模型 . 我在那里找到了一些见解: Feature Selection in caret rfe + sum with ROC http://www.cybaea.net/Blogs/Feature-selection-Using-the-caret-package.html 我结束了这段代码: gbmFuncs <...
  • 9 votes
     answers
     views

    使用插入包来找到GBM的最佳参数

    我正在使用R GBM软件包来增强对尺寸为10,000 X 932的一些生物数据进行回归,我想知道什么是GBM软件包的最佳参数设置(n.trees,shrinkage,interaction.depth和n . minobsinnode)当我在网上搜索时,我发现R上的CARET包可以找到这样的参数设置 . 但是,我在使用带有GBM包的Caret包时遇到了困难,所以我只想知道如何使用插入符找到前面提...
  • 0 votes
     answers
     views

    使用带自定义权重的gbm时,插入符号中的train功能出错

    我正在尝试使用自定义权重参数和接收错误在插入符包(RStudio)中使用训练函数对gbm执行参数调整 . 错误是 Error in {: task 1674 failed - inputs must be factors 原始数据集由1649个观测值组成,并使用60/40分割将其分为训练和测试集 . 调整参数使用trainControl和网格来定义,以尝试不同的参数值 . 对于是/否类,列权重包...
  • 0 votes
     answers
     views

    Caret GBM中的模型拟合失败,并且缺少所有RMSE度量标准值:

    我遇到了 Headers 中指出的错误,并通过检查空值,将预测变量更改为数字以及使用中心和比例预处理变量来查看在线发布的类似问题的解决方案,但无效 . 我能够使用Caret for RF中的相同数据以及每个GBM参数的一系列tunegrid选项来运行模型,但是当我为每个GBM参数指定最佳值时却不能 . 我的火车数据包括回归目标变量(Gross.Salary0),我的预测变量是因子(二进制)或数字 ...
  • 2 votes
     answers
     views

    找不到R:404中的H2O GBM错误(H2OKeyNotFoundArgumentException)

    **跑步时 h2o.gbm(y = "Y", nfolds = 3, ntrees = 100, training_frame = train, verbose = TRUE) 我收到错误:** 错误:意外的HTTP状态代码:404 Not Found(url = http://localhost:54321/3/Models/GBM_model_R_150471503354...
  • 1 votes
     answers
     views

    h2o GBM:叶预测

    我正在为h2o中的GBM执行gridsearch,以获得具有连续预测变量的连续结果 . 我正在使用交叉验证进行训练,然后在测试集上进行预测 . 我正在使用.predict_leaf_node_assignment函数: best_gbm.predict_leaf_node_assignment(test_frame_h2o)(其中best_gbm是我从gridsearch获得的最好的gbm模型) ...

热门问题