1200字范文 > 【机器学习】如何处理数据不均衡问题

【机器学习】如何处理数据不均衡问题

时间：2023-06-16 17:50:31

相关推荐

【机器学习】如何处理数据不均衡问题

在打比赛期间，遇到了数据不均衡问题。于是网上查了查资料，便做了以下总结。嘿嘿

什么是数据不均衡问题

举个小栗子：

如果100个人中喜欢吃梨的有90人，喜欢吃苹果的有10人。

那么如果你随便在大街上找一个人，预测他是喜欢吃梨还是苹果？肯定的，傻子都知道猜他喜欢吃梨呀。因为这样基本不用学习什么知识，就能将准确率控制在90%左右。

用图表示就为：

真实值

预测值

像这种问题，傻瓜都会，还要机器干什么呢？所以，我们要找到真的学习并预测梨和苹果，且不受数据不均衡影响的分类器。

解决办法

1.想办法获取更多的数据

获取更多的数据，从数据来源查找更多的数据，来弥补数据的短缺。

2.换个评测方式

以前都用准确率accuracy，也就是预测对的个数 / 总个数。但是这个评测方式在高的准确率和低的误差并没有那么有说服力。那么怎么办呢？这个时候就该想起来准确率Precision和召回率Recall，从而求得的F1值。P，R，F1值是对所有类别的测评值。如果想了解更多，我之前写了该方法的理论与实践。

详谈P(查准率)，R(查全率)，F1值

3.重组数据

这个方法就简单粗暴了。比如原始数据为：

方式一

将少的蓝色数据复制多份，使得数量和多的数据相当即可。

蓝色数据复制多份

注：这样做的缺点是可能会过拟合。

方式二

砍掉一些橙色部分，使得和蓝色基本持平。

注：这样做的缺点一般使得数据预测的不那么准确，因为数据丢失。

个人认为，建议优先选择方式一。

4.换机器学习算法