通过pandas计算每个类的值,我可以知道每个类的分布和计数 . 但是,由于我想做一篇研究论文,我希望能够准确地检测出给定数据集的 balancer 或不 balancer .

我怎么能在python中实现这一点?是否有特定的配方?或者我们可以通过计算(我现在的方式)来判断?

P.S . :我知道我可以从这个领域的论文中查看数据集,但是,我找到了来自Kaggle或UCI的数据集,这些数据集并不那么受欢迎,我不想让它们离开 .

谢谢