交叉验证和网格搜索有什么区别？-Java 学习之路

简单来说，交叉验证和网格搜索有什么区别？网格搜索如何工作？我应该首先进行交叉验证然后进行网格搜索吗？

4 回答

9

交叉验证是指您保留部分数据用于评估模型 . 有不同的交叉验证方法 . 最简单的概念是，只需占用数据的70％（只需在此处编号，不一定是70％）并将其用于培训，然后使用剩余的30％的数据来评估模型的数据性能 . 您需要不同的数据来训练和评估模型的原因是为了防止过度拟合 . 当然还有其他（稍微涉及更多）交叉验证技术，如k-fold交叉验证，这在实践中经常使用 .

网格搜索是一种执行超参数优化的方法，也就是说，它是一种为给定模型找到超参数的最佳组合（超参数的一个例子是优化器的学习率）的方法（例如CNN）和测试数据集 . 在这种情况下，您有几个模型，每个模型都有不同的超参数组合 . 对应于单个模型的这些参数组合中的每一个可以说是位于“网格”的点上 . 然后，目标是训练每个模型并评估它们，例如使用交叉验证 . 然后选择表现最佳的那个 .

举一个具体的例子，如果你使用支持向量机，你可以使用 gamma 和 C 的不同值 . 因此，例如，您可以为 (gamma, C) ： (1, 1), (0.1, 1), (1, 10), (0.1, 10) 设置具有以下值的网格 . 它's a grid because it'就像 [1, 0.1] 的产品 gamma 和 [1, 10] 的产品 C . 网格搜索基本上会为这四对 (gamma, C) 值中的每一个训练一个SVM，然后使用交叉验证对其进行评估，并选择最佳的一个 .

回复于 2024-04-27T23:15:47+08:00
76

交叉验证是一种用于稳健地估计模型的测试集性能（泛化）的方法 . 网格搜索是一种选择模型族中最佳模型的方法，通过参数网格进行参数化 .

在这里，通过"model"，我不是指训练有素的实例，更多的是算法和参数，例如 SVC(C=1, kernel='poly') .

回复于 2024-04-27T23:15:47+08:00
14

交叉验证，简单地分离测试和培训数据，并使用测试数据验证培训结果 . 我知道有两种交叉验证技术 .

首先，测试/训练交叉验证 . 拆分数据作为测试和训练 .

其次，k-fold交叉验证将您的数据拆分为k个bin，将每个bin用作测试数据，并将其余数据用作训练数据并验证测试数据 . 重复该过程k次 . 并获得平均表现 . k-fold交叉验证对小型数据集特别有用，因为它可以最大化测试和训练数据 .

网格搜索;系统地通过参数曲调的多种组合，交叉验证每一个，并确定哪一个给出最佳性能 . 你可以通过许多组合只稍微改变参数 .

回复于 2024-04-27T23:15:47+08:00
1
交叉验证是一种保留数据集的特定子集的方法，您不会在该数据集上训练模型 . 稍后，在最终确定之前，在此子集上测试模型 .

执行交叉验证需要执行的主要步骤如下：
- 在训练和测试数据集中拆分整个数据集（例如，整个数据集的80％是训练数据集，剩下的20％是测试数据集）
- 使用训练数据集训练模型
- 在测试数据集上测试模型 . 如果模型在测试数据集上运行良好，请继续培训过程
例如，还有其他交叉验证方法
- 留一交叉验证（LOOCV）
- K折交叉验证
- 分层K折交叉验证
- 对抗性交叉验证策略（当列车和休息数据集彼此差异很大时使用） .
回复于 2024-04-27T23:15:47+08:00

交叉验证和网格搜索有什么区别？

4 回答

相关问题