我正在使用Scikit-learn进行文本分类 . 我想计算每个属性相对于(稀疏)文档 - 术语矩阵中的类的信息增益 . 信息增益定义为H(类) - H(类|属性),其中H是熵 .
使用weka,可以使用InfoGainAttribute来完成 . 但我还没有在scikit-learn中找到这个措施 .
但是,上面的信息增益公式与互信息相同,已经suggested . 这也符合wikipedia中的定义 .
是否可以在scikit中使用特定设置来交互信息 - 学习完成此任务?
我正在使用Scikit-learn进行文本分类 . 我想计算每个属性相对于(稀疏)文档 - 术语矩阵中的类的信息增益 . 信息增益定义为H(类) - H(类|属性),其中H是熵 .
使用weka,可以使用InfoGainAttribute来完成 . 但我还没有在scikit-learn中找到这个措施 .
但是,上面的信息增益公式与互信息相同,已经suggested . 这也符合wikipedia中的定义 .
是否可以在scikit中使用特定设置来交互信息 - 学习完成此任务?
1 回答
你可以使用scikit-learn的mutual_info_classif这里是一个例子
这将输出每个属性的字典,即词汇表中的项目作为键,它们的信息作为值获得
这是输出的示例