对于基数2浮点数表示,IEEE 754-2008指定binary16(a.k.a . "half precision"),binary32(a.k.a . "single precision"),binary64(a.k.a . "double precision"),以及较少使用的binary128和binary256 . 但是,IEEE 754标准没有规定标准的8位编码 .

如果想在硬件中添加对8位浮点数的支持,那么最有用/标准的编码是什么(假设它符合IEEE 754惯例)?

我能想到的可能的应用包括图形(颜色/光强度)和机器学习(DNN等) .

在我看来,最佳点是使用3-4位的指数,但有没有任何值得注意的决定的显着实现或标准?

背景:我正在创建一个自定义CPU ISA并计划添加对低精度浮点的支持(MIRSC32 packed floating point) .