我正在尝试为分类问题执行特征子集选择,以确定每个 group 的相对优先级 . SKLearn没有意识到这一点 . 如果内置过程执行基于组的子集选择,我很乐意听到它 .

以下是我的数据和代码的表示,用于开始顺序向后逐步过程:

feature_set = np.array([[  1.,    1.,    88.,   42.5,   9.,   88.,   42.5,  13. ],
                        [  1.,    1.,    121.5,  76.,  42.5, 117.5, 72.,   42.5],
                        [  1.,    1.,    167.,  121.5,  88.,  163.,  117.5,  88. ]])
y_feature = np.array([  1.,  0.,  1.])

feature_subset_mapping['a'] = [0,1]
feature_subset_mapping['b'] = [2,3,4]
feature_subset_mapping['c'] = [5,6,7]

excluded_subsets = []
included_subsets = ['a','b','c']

在这个例子中,我有3个候选子集用于选择,其中它们的内容必须被视为一组(实际上这些是非常大的矢量化矩阵) . 每次迭代,included_subsets缩小和excluded_subsets基于表现最差的模型的评估统计量(例如预测准确性)而增长 .

我不相信我的数据集中的所有要素子集都很重要,但我需要一种更好的方法来确认这一点 . 我的真实数据集非常大(600,000个障碍物),但只有8个特征子集存在 .