我正在尝试为分类问题执行特征子集选择,以确定每个 group 的相对优先级 . SKLearn没有意识到这一点 . 如果内置过程执行基于组的子集选择,我很乐意听到它 .
以下是我的数据和代码的表示,用于开始顺序向后逐步过程:
feature_set = np.array([[ 1., 1., 88., 42.5, 9., 88., 42.5, 13. ],
[ 1., 1., 121.5, 76., 42.5, 117.5, 72., 42.5],
[ 1., 1., 167., 121.5, 88., 163., 117.5, 88. ]])
y_feature = np.array([ 1., 0., 1.])
feature_subset_mapping['a'] = [0,1]
feature_subset_mapping['b'] = [2,3,4]
feature_subset_mapping['c'] = [5,6,7]
excluded_subsets = []
included_subsets = ['a','b','c']
在这个例子中,我有3个候选子集用于选择,其中它们的内容必须被视为一组(实际上这些是非常大的矢量化矩阵) . 每次迭代,included_subsets缩小和excluded_subsets基于表现最差的模型的评估统计量(例如预测准确性)而增长 .
我不相信我的数据集中的所有要素子集都很重要,但我需要一种更好的方法来确认这一点 . 我的真实数据集非常大(600,000个障碍物),但只有8个特征子集存在 .