8位浮点数的最标准编码是什么？-Java 学习之路

对于基数2浮点数表示，IEEE 754-2008指定binary16（a.k.a . "half precision"），binary32（a.k.a . "single precision"），binary64（a.k.a . "double precision"），以及较少使用的binary128和binary256 . 但是，IEEE 754标准没有规定标准的8位编码 .

如果想在硬件中添加对8位浮点数的支持，那么最有用/标准的编码是什么（假设它符合IEEE 754惯例）？

我能想到的可能的应用包括图形（颜色/光强度）和机器学习（DNN等） .

在我看来，最佳点是使用3-4位的指数，但有没有任何值得注意的决定的显着实现或标准？

背景：我正在创建一个自定义CPU ISA并计划添加对低精度浮点的支持（MIRSC32 packed floating point） .

8位浮点数的最标准编码是什么？

相关问题