首页 文章

SVM硬边距:为什么不 balancer 的数据集可能导致不良结果?

提问于
浏览
2

我可以理解为什么软边缘SVM受到不 balancer 训练集的影响:最小化优化问题的误差可以推动将所有数据训练分类为负(如果|负例子| >> |正例子|) .

但是,在硬边缘SVM中,我没有松弛变量和C costant,所以我不想最小化误差,因为硬边缘SVM预期没有错误(对于问题的定义)!硬边缘SVM只搜索支持向量并最大化类支持超平面之间的边界支持由支持向量“识别”;现在,如果我有“背后”负支持向量(即负类支持超平面)很多点或相同数量的正点,这些都不会影响我的边距和分离超平面;

它始终是相同的,因为它仅取决于支持向量,无论我增加点数,它们总是相同的!为什么硬边缘SVM受到不 balancer 数据集的影响或我的推理错误?谢谢!

1 回答

  • 4

    对于真正的硬边距SVM,无论其 balancer 如何,任何数据集都有两个选项:

    • 训练数据在特征空间中完全可分离,您得到的结果模型有0个训练错误 .

    • 训练数据在特征空间中是不可分的,您将得不到任何东西(没有模型) .

    另外,请注意,在给定足够复杂的内核(例如,具有非常大的伽玛的RBF)的情况下,您可以在任何数据集上训练硬边距SVM . 然而,由此产生的模型通常很糟糕,因为它是训练数据的总过度拟合 .

相关问题