转学习为什么删除最后隐藏的图层？-Java 学习之路

-1

通常在阅读有关转移学习的博客时会说 - 删除最后一层，或删除最后两层 . 也就是说，删除输出图层和最后隐藏图层 .

因此，如果转移学习也意味着改变成本函数，例如从交叉熵到均方误差，我知道你需要将最后一个输出层从1001层softmax值更改为输出浮点数的Dense（1）层，但是：

为什么还要更改最后一个隐藏图层？
如果使用Keras和其中一个具有imagenet权重的预定义CNN模型，最后两个新图层的权重是多少？他初始化或0初始化？

2 回答

-1

Why remove layers?

如果你只是想改变成本函数，你就不会按照大多数人的定义进行转移学习 . 转移学习主要是关于迁移到新的应用程序域 . 因此对于图像，采用狗标识符/检测器并将其转移为鸟标识符/检测器，而不是狗年龄/体重猜测器 . （或者使用1001通用物体探测器并使用它仅查看安全摄像机镜头等）

大多数文献都表示，较低水平的CNN正在学习几个像素大小的低级概念，这些概念是相当通用的 . 中间层是对象检测器，对应于眼球或鼻子，顶层是最高级别，指定那些中级对象相对于彼此的位置，并且表示最高级别的特征 . 最后一次softmax只是说哪种狗 . 最后一个最高级别的功能可能与新任务无关 .

这是因为观察到ConvNet的早期特征包含更多通用特征（例如边缘检测器或彩色斑点检测器），这些特征应该对许多任务有用，但后来的ConvNet层逐渐变得更加特定于细节 . 原始数据集中包含的类 . 来自：http：//cs231n.github.io/transfer-learning/

以下是其他几种解释：https://machinelearningmastery.com/transfer-learning-for-deep-learning/

https://medium.com/nanonets/nanonets-how-to-use-deep-learning-when-you-have-limited-data-f68c0b512cab

What should the new layers be initialized to?

在您的原始问题中，您问了"He initialized or 0 initialized?" . 同样，我认为这更像是一个工程问题，因为我们知道_1856560_t将所有内容初始化为零 . 这绝对是错的，你可以看到in the first post I link to below . 还要记住，这只是初始化 . 因此，即使我的知识稍微过时，所有它应该花费你的一些额外的时代训练副彻底失败或垃圾答案 . 根据您的问题，这可能是一个巨大的成本或一个小的成本，这将决定你花多少时间调查选项，并尝试小规模 .

http://andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization

https://datascience.stackexchange.com/questions/13061/when-to-use-he-or-glorot-normal-initialization-over-uniform-init-and-what-are/13362

https://stats.stackexchange.com/questions/229885/whats-the-recommended-weight-initialization-strategy-when-using-the-elu-activat

回复于 2024-05-06T15:52:23+08:00
2
- 在Keras中，对于Inception v3，如果要更改输出图层，也会删除最后一个隐藏图层 . 默认情况下，最后一个隐藏层是globalAveragePooling，但根据问题域，可能优先选择globalAveragePooling或globalMaxPooling
- 默认情况下，Keras使用Glorot统一初始化器初始化密集层，也称为Xavier统一初始化器 .
回复于 2024-05-06T15:52:23+08:00

转学习为什么删除最后隐藏的图层？

2 回答

相关问题