首页 文章

在机器学习中标记数据集

提问于
浏览
2

我对机器学习的一些基本概念有疑问 . 我观察到的例子给出了一个简要的概述 . 为了训练系统,给出了特征向量作为输入 . 在监督学习的情况下,标记数据集 . 我对标签感到困惑 . 例如,如果我必须区分两种类型的图片,我将提供一个特征向量,在输出端进行测试,我将为类型A提供1,为类型B提供2.但是如果我想提取一个感兴趣的区域来自图像数据集 . 如何使用SVM标记我的数据以提取ROI . 我希望我能够表达我的困惑 . 谢谢你的期待 .

1 回答

  • 0

    在监督学习中,例如SVM,数据集应该如下组成:

    <i-th feature vector><i-th label>
    

    其中 i 从1变为训练集中的模式数(也是示例或观察数),因此这表示训练集中的单个记录可用于训练SVM分类器 .

    所以你基本上有一个由这样的元组组成的集合,如果你只有2个标签(二进制分类问题),你可以很容易地使用SVM . 实际上,SVM模型将通过训练集和训练标签进行训练,一旦训练阶段结束,您可以使用另一组(称为验证集或测试集),其结构与训练集相同,测试SVM的准确性 .
    换句话说,SVM工作流程的结构应如下所示:

    • 使用训练集和训练标签训练SVM

    • 使用上一步中训练的模型预测验证集的标签

    • 如果您知道实际验证标签是什么,您可以将预测标签与实际标签相匹配,并检查已正确预测的标签数量 . 正确预测标签数与验证集中标签总数之间的比率返回[0; 1]之间的标量,它称为SVM模型的准确性 .

    • 如果您对ROI感兴趣,您可能需要检查训练有素的SVM参数(主要是权重和偏差)来重建分离超平面

    同样重要的是要知道训练集记录应该是正确的,先验标记:如果训练标签不正确,SVM将永远无法正确预测先前看不见的模式的输出 . 您不必根据要提取的ROI标记数据,必须事先正确标记数据:SVM将具有整个A类图片集和B类图片集,并将学习决策边界分离A型图片和B型图片 . 你不必欺骗标签:如果你这样做,你基本上会欺骗结果 .

相关问题