SVM硬边距：为什么不 balancer 的数据集可能导致不良结果？-Java 学习之路

我可以理解为什么软边缘SVM受到不 balancer 训练集的影响：最小化优化问题的误差可以推动将所有数据训练分类为负（如果|负例子| >> |正例子|） .

但是，在硬边缘SVM中，我没有松弛变量和C costant，所以我不想最小化误差，因为硬边缘SVM预期没有错误（对于问题的定义）！硬边缘SVM只搜索支持向量并最大化类支持超平面之间的边界支持由支持向量“识别”;现在，如果我有“背后”负支持向量（即负类支持超平面）很多点或相同数量的正点，这些都不会影响我的边距和分离超平面;

它始终是相同的，因为它仅取决于支持向量，无论我增加点数，它们总是相同的！为什么硬边缘SVM受到不 balancer 数据集的影响或我的推理错误？谢谢！

1 回答

4
对于真正的硬边距SVM，无论其 balancer 如何，任何数据集都有两个选项：
- 训练数据在特征空间中完全可分离，您得到的结果模型有0个训练错误 .
- 训练数据在特征空间中是不可分的，您将得不到任何东西（没有模型） .
另外，请注意，在给定足够复杂的内核（例如，具有非常大的伽玛的RBF）的情况下，您可以在任何数据集上训练硬边距SVM . 然而，由此产生的模型通常很糟糕，因为它是训练数据的总过度拟合 .
回复于 2024-05-03T15:18:36+08:00

SVM硬边距：为什么不 balancer 的数据集可能导致不良结果？

1 回答

相关问题