当我阅读和搜索 fine tuning of pre-trained network 时,它是按照以下两个步骤完成的(简而言之):
-
冻结隐藏层并解冻完全连接的层并进行训练 .
-
解冻两个层并再次训练 .
我的问题是:
-
仅仅执行第一步是否足够?
-
如果我只进行第一步,是否与 network as a feature extractor 方法不一样?
(网络作为特征提取器方法是,使用预训练网络提取特征并使用传统机器学习分类算法对其进行分类) .
如果您想了解更多信息以澄清问题,请告诉我 .
1 回答
您的问题存在一些问题......
首先,你明确暗示一个只有2层的网络,这与现在在实践中实际使用微调的方式相当(非常) .
第二,你的第一个问题中的“足够”究竟是什么意思(足够的是什么)?
实际上,预训练模型,特征提取器和微调的概念之间存在足够的重叠,并且不同的人甚至可能以不完全相同的方式使用所涉及的术语 . 斯坦福大学采用的一种方法是将所有这些视为更为通用的特殊案例 transfer learning ;这是一个有用的excerpt,来自上述课程的相应部分,可以说是你的问题的精神(如果不是字母):