经过多年对SAS / SPSS产品的数据挖掘,我才开始使用scikit-learn . 我对scikit-learn和pandas的能力感到惊讶,但有一件事我自己无法弄明白 . 让我们假设我的训练数据是由整数构建的,其中一些是编码分类值 . 有什么方法可以控制如何通过树或任何集合树(例如:ExtraTreesClassifier)algorihm来解释变量?正确的方法是将变量类型从int更改为object,还是我可以学习一个常见的技巧?
谢谢,德拉
对于低基数分类功能,可能适合使用单热编码功能扩展 . 看一下:
http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features
http://scikit-learn.org/stable/modules/feature_extraction.html#loading-features-from-dicts
对于高基数分类功能,您可以保留ExtraTreesClassifier的整数编码 . 即使该算法将它们视为常规连续变量,但它在实践中似乎不会过于消极地影响预测准确性 .
Edit :无论如何,scikit-learn期望对所有输入要素进行齐次浮点类型编码 . 对象dtype永远不是有效的输入类型 .
1 回答
对于低基数分类功能,可能适合使用单热编码功能扩展 . 看一下:
http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features
http://scikit-learn.org/stable/modules/feature_extraction.html#loading-features-from-dicts
对于高基数分类功能,您可以保留ExtraTreesClassifier的整数编码 . 即使该算法将它们视为常规连续变量,但它在实践中似乎不会过于消极地影响预测准确性 .
Edit :无论如何,scikit-learn期望对所有输入要素进行齐次浮点类型编码 . 对象dtype永远不是有效的输入类型 .