在您的原始问题中,您问了"He initialized or 0 initialized?" . 同样,我认为这更像是一个工程问题,因为我们知道_1856560_t将所有内容初始化为零 . 这绝对是错的,你可以看到in the first post I link to below . 还要记住,这只是初始化 . 因此,即使我的知识稍微过时,所有它应该花费你的一些额外的时代训练副彻底失败或垃圾答案 . 根据您的问题,这可能是一个巨大的成本或一个小的成本,这将决定你花多少时间调查选项,并尝试小规模 .
2 回答
Why remove layers?
如果你只是想改变成本函数,你就不会按照大多数人的定义进行转移学习 . 转移学习主要是关于迁移到新的应用程序域 . 因此对于图像,采用狗标识符/检测器并将其转移为鸟标识符/检测器,而不是狗年龄/体重猜测器 . (或者使用1001通用物体探测器并使用它仅查看安全摄像机镜头等)
大多数文献都表示,较低水平的CNN正在学习几个像素大小的低级概念,这些概念是相当通用的 . 中间层是对象检测器,对应于眼球或鼻子,顶层是最高级别,指定那些中级对象相对于彼此的位置,并且表示最高级别的特征 . 最后一次softmax只是说哪种狗 . 最后一个最高级别的功能可能与新任务无关 .
以下是其他几种解释:https://machinelearningmastery.com/transfer-learning-for-deep-learning/
https://medium.com/nanonets/nanonets-how-to-use-deep-learning-when-you-have-limited-data-f68c0b512cab
What should the new layers be initialized to?
在您的原始问题中,您问了"He initialized or 0 initialized?" . 同样,我认为这更像是一个工程问题,因为我们知道_1856560_t将所有内容初始化为零 . 这绝对是错的,你可以看到in the first post I link to below . 还要记住,这只是初始化 . 因此,即使我的知识稍微过时,所有它应该花费你的一些额外的时代训练副彻底失败或垃圾答案 . 根据您的问题,这可能是一个巨大的成本或一个小的成本,这将决定你花多少时间调查选项,并尝试小规模 .
http://andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization
https://datascience.stackexchange.com/questions/13061/when-to-use-he-or-glorot-normal-initialization-over-uniform-init-and-what-are/13362
https://stats.stackexchange.com/questions/229885/whats-the-recommended-weight-initialization-strategy-when-using-the-elu-activat
在Keras中,对于Inception v3,如果要更改输出图层,也会删除最后一个隐藏图层 . 默认情况下,最后一个隐藏层是globalAveragePooling,但根据问题域,可能优先选择globalAveragePooling或globalMaxPooling
默认情况下,Keras使用Glorot统一初始化器初始化密集层,也称为Xavier统一初始化器 .