我是深度学习和张量流动的新手,我正在尝试培训CNN来定位街景房号数据集中的数字 . 为此,我有一个32x32图像的输入集,因为我想识别多达5位数,我使用像这样的20个元素的标签向量

[top_x_digit1,top_y_digit1,width_digit1,height_digit1,top_x_digit2等..]

0,0,0,0没有数字时

据我明白,后(让我说)卷积和池3层我可以添加旨在提取不同位数的各框的功能5(平行)完全连接层(当存在时,0 0 0 0其它方式) .

我的方法是正确的吗?