IEEE 754规格化浮点数所能表示的最大值和最小值

@赵士杰

已于 2022-05-28 13:16:59 修改

阅读量3.9w

点赞数 172

CC 4.0 BY-SA版权

分类专栏：计算机组成原理文章标签：浮点数

于 2021-03-16 19:12:38 首次发布

本文链接：https://blog.csdn.net/qq_20185737/article/details/114895220

计算机组成原理专栏收录该内容

6 篇文章

订阅专栏

本文详细解析了IEEE754标准下浮点数的最大值和最小值计算方法，通过确定最大和最小阶码真值及尾数部分来计算浮点数的极限值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

刚开始自己不明白最大绝对值 2- 是怎么来的，记录下

IEEE 754标准

IEEE 754标准浮点数格式：

在这里插入图片描述

阶码用移码表示
移码=阶码真值+偏置值
阶码真值=移码-偏置值
偏置值的公式为： $2n−1−1{\large {\color{Green} 2^{n-1}-1}}$
移码（这里的移码看作无符号数）的表示范围为： $0∼2n−1{\large {\color{Green}0\sim 2^{n}-1}}$
尾数用原码表示
隐含最高数位1
阶码全1和阶码全0用作特殊用途

IEEE 754浮点数格式：

类型	数符	阶码	尾数数值	总位数	偏置值
类型	数符	阶码	尾数数值	总位数	十六进制	十进制
短浮点数	1	8	23	32	7FH	127
长浮点数	1	11	52	64	3FFH	1023
临时浮点数	1	15	64	80	3FFFH	16383

浮点数的最大值和最小值

IEEE 754规格化浮点数的最大值和最小值，可以先根据最大绝对值，改变符号位即可

浮点数的最大绝对值

浮点数规格化的阶码决定了数值的大小，因此找最大绝对值，就需要首先确认最大的阶码真值，然后再确定尾数部分最大

因此找最大绝对值需要确定最大阶码和确定最大尾数

我们拿短浮点数（单精度、float型）举例（长浮点数同理）。

已经知道 ${\color{Purple} 阶码真值=移码-偏偏置值} }$ ，因此， ${\color{Purple} 最大的阶码=最大的移码-偏置值} }$

短浮点数得阶码占 $8{\large {\color{Green} 8}}$ 位，根据移码公式可以算出： $0∼28−1的取值范围为0∼255{{\color{Green} 0 \sim 2^{8}-1}{ \color{Purple} 的取值范围为} {\color{Green} 0 \sim 255}}$

由于全1和全0用作特殊用途，所以我们能取得最大的移码是 ${\color{Green} 254}}$ ；

根据偏置值公式可以算出： ${\color{Green} 2^{8-1}-1}}$ ，偏置值为 ${\color{Green} 127}}$

由公式 $阶码真值=移码−偏偏置值{{\color{Purple} 阶码真值=移码-偏偏置值} }$ 可以求出最大阶码真值能取得 $254−127=127{\large {\color{Green} 254-127=127}}$ 。求出最大阶码，再求最大尾数部分

短浮点数的尾数部分占 $23{\large {\color{Green} 23}}$ 位，我们把 $23{\large {\color{Green} 23}}$ 位数值位全部取1就是最大值，再加上隐含的最高位1，得出： $111{\large {\color{Green} 1.1111\ 1111\ 1111\ 1111\ 1111\ 111} }$

组合到一块就是： $111×2127{\large {\color{Green} 1.1111\ 1111\ 1111\ 1111\ 1111\ 111} \times {\color{Orange} 2^{127}} }$

但是这么多位1存在很麻烦，我们化简一下： $001{\large {\color{Green} 1.1111\ 1111\ 1111\ 1111\ 1111\ 111} = {\color{Orange} 2-0.0000\ 0000\ 0000\ 0000\ 0000\ 001} }$

最后得到： $(2−2−23)×2127{\large {\color{Red} \left ( 2-2^{-23} \right )\times 2^{127} }}$

浮点数的最小绝对值

和最大绝对值一样，只需要让阶码真值最小，尾数部分最小即可

继续拿短浮点数举例。

上面已经求出短浮点数移码的表示范围，短浮点数得阶码占 ${\color{Green} 8}}$ 位，根据移码公式可以算出： $0∼28−1的取值范围为0∼255{{\color{Green}0\sim 2^{8}-1}{\color{Purple} 的取值范围为} {\color{Green}0\sim255}}$ ，偏置值为 $127{{\color{Green} 127}}$