scikit-learn解释整数变量-Java 学习之路

经过多年对SAS / SPSS产品的数据挖掘，我才开始使用scikit-learn . 我对scikit-learn和pandas的能力感到惊讶，但有一件事我自己无法弄明白 . 让我们假设我的训练数据是由整数构建的，其中一些是编码分类值 . 有什么方法可以控制如何通过树或任何集合树（例如：ExtraTreesClassifier）algorihm来解释变量？正确的方法是将变量类型从int更改为object，还是我可以学习一个常见的技巧？

谢谢，德拉

1 回答

4
对于低基数分类功能，可能适合使用单热编码功能扩展 . 看一下：
- http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features
- http://scikit-learn.org/stable/modules/feature_extraction.html#loading-features-from-dicts
对于高基数分类功能，您可以保留ExtraTreesClassifier的整数编码 . 即使该算法将它们视为常规连续变量，但它在实践中似乎不会过于消极地影响预测准确性 .

Edit ：无论如何，scikit-learn期望对所有输入要素进行齐次浮点类型编码 . 对象dtype永远不是有效的输入类型 .
回复于 2024-04-19T05:45:21+08:00

scikit-learn解释整数变量

1 回答

相关问题