我正在尝试从sklearn训练一个随机森林回归者 . 我想要训练的功能有不同的类型,数字连续,数字分类,文本分类(姓名/国籍),纬度和经度 .
我想知道的是所有功能,如何确定最有用的功能集来训练我的随机森林回归器?
首先,在数据上运行随机森林模型 .
rf= RandomForestRegressor() rf.fit(train_data,train_labels)
然后使用 feature importance 属性了解可以过滤掉功能的功能的重要性 .
print(rf.feature_importances_)
再次在选定的功能上运行您的模型 .
您可以使用更多技术,如关联,pca等 . 拥有领域知识也可以在构建模型时为您提供优势 .
1 回答
首先,在数据上运行随机森林模型 .
然后使用 feature importance 属性了解可以过滤掉功能的功能的重要性 .
再次在选定的功能上运行您的模型 .
您可以使用更多技术,如关联,pca等 . 拥有领域知识也可以在构建模型时为您提供优势 .