我在类似的生物数据集上训练了16种不同的模型来预测特定疾病(目标)的发生,从~17000个生物超途径(特征) . 每个数据集具有相同的功能,但不是相同的模型体系结构 . 此外,一半数据集代表现实世界疾病发生率(~5%),而另一半数据集通过重新采样阳性类别来 balancer . 还有一些其他数据转换,以便每个模型都会强调数据的不同属性 .

以下是所有模型和数据集中要素的索引(来自有序要素重要性的数据框)的示例 . 这个特定的特征,我100%肯定,是预测这种疾病的重要特征 . 但你可以看到它在不同模型之间的差异 . 每行是不同模型的索引 .

Feature Index

正如预期的那样,不同的模型正在拾取不同的信号,尽管特征重要性发生了很大变

为了创建一个易于理解的产品,我在所有模型中显示了按其调和均值排序的特征 . 图片如下:

Feature and Harmonic Mean of Index

从所有16个模型中显示1(或2)个特征顺序的更好方法是什么?

  • feature important只是sklearn的model.feature_importance_ product(这是gini的重要性) .