我正在尝试使用逻辑回归模型对一些EEG数据进行分类(这似乎给出了我数据的最佳分类) . 我的数据来自多通道EEG设置,所以本质上我有一个63 x 116 x 50的矩阵(即通道x时间点x试验次数(有两种试验类型为50),我已将其重新设计为长矢量,每个试验一个 .
我想做的是在分类后看看哪些特征在分类试验中最有用 . 我怎么能这样做,是否有可能测试这些功能的重要性?例如说分类主要是由N特征驱动,这些是特征x到z . 例如,我可以说时间点90-95的通道10对于分类来说是重要的或重要的 .
这是可能的,还是我问错了?
任何评论或论文参考都非常感谢 .
1 回答
Scikit-learn包含了很多功能排名方法,其中包括:
单变量特征选择(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html)
递归特征消除(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html)
随机Logistic回归/稳定性选择(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html)
(更多信息,请致电http://scikit-learn.org/stable/modules/feature_selection.html)
其中,我绝对建议给予随机Logistic回归一次 . 根据我的经验,它始终优于其他方法并且非常稳定 . 论文:http://arxiv.org/pdf/0809.2932v2.pdf
Edit: 我写了一系列关于不同特征选择方法及其优缺点的博客文章,这些文章可能对回答这个问题更有用:
http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/
http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/
http://blog.datadive.net/selecting-good-features-part-iii-random-forests/
http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/