1000ms

Difficulty: 7

所属公司 : 华为

时间 :2026年1月21日-AI方向

算法标签>

机器学习算法

题目内容

在深度学习模型部署中，为降低内存占用与计算延迟，常采用量化技术将 $FP32$ 参数转换为低精度格式（如 $INT8$ ）。本题要求实现一种 $INT8$ 量化策略，对输入矩阵 $X$ 与权重矩阵 $W$ 分别进行 $per-token$ （按行）和 $per-channel$ （按列）量化，计算量化后矩阵相乘（带 $scales$ ）的结果并输出。

原始矩阵：

输入矩阵 $X \in \mathbb{R}^{M \times K}$ （按行视为 $M$ 个 $Token$ ）
权重矩阵 $W \in \mathbb{R}^{K \times N}$ （按列视为 $N$ 个 $Channel$ ）

量化参数：

$s_{X}^{(i)}$ ：第 $i$ 个 $Token$ 的缩放因子（ $per-token$ ）
$s_{W}^{(j)}$ ：第 $j$ 个 $Channel$ 的缩放因子（ $per-channel$ ）

2. 量化公式

(1) Per-Token 量化（输入矩阵 $X$ ）

缩放因子计算：
$s_{X}^{(i)}=\frac{\max_{k \in [1, K]} \left| X_{i,k} \right|}{127}, \quad \forall i \in [1, M]$
量化公式：
$Q_{X}^{(i,k)}=\operatorname{clip}\left( \operatorname{round}\left( \frac{X_{i,k}}{s_{X}^{(i)}} \right), -127, 127 \right)$
反量化恢复：
$\hat{X}_{i,k}=Q_{X}^{(i,k)} \cdot s_{X}^{(i)}$

注意：

round：四舍五入取整函数【按Python round()函数处理逻辑，奇进偶弃舍入法。即非 $0.5$ 的情况：遵循常规的四舍五入规则。 $0.5$ 情况：舍入到最接近的偶数。】
clip $(x, -127, 127)$ ：将超过区间的值截断到 $[-127, 127]$ 范围内，超过127则为127，小于 $-127$ 同理。

(2) $Per-Channel$ 量化（权重矩阵 $W$ ）

缩放因子计算：

s_{W}^{(j)} = \frac{\max_{k \in [1,K]} |W_{k,j}|}{127}, \quad \forall j \in [1, N]

量化公式：

Q_{W}^{(k,j)} = \operatorname{clip}\left(\operatorname{round}\left(\frac{W_{k,j}}{s_{W}^{(j)}}\right), -127, 127\right)

反量化恢复：

\hat{W}_{k,j} = Q_{W}^{(k,j)} \cdot s_{W}^{(j)}

3.量化矩阵乘法

(1) INT8 矩阵乘法（量化后计算）

$Y_{\text{int}32}^{(i,j)}=\sum_{k=1}^{K} Q_{X}^{(i,k)} \cdot Q_{W}^{(k,j)}$

输出为 INT32 矩阵（避免溢出）。

(2) 反量化到 FP32

$Y_{\text{fp}32}^{(i,j)}=Y_{\text{int}32}^{(i,j)} \cdot s_{X}^{(i)} \cdot s_{W}^{(j)}$

组合缩放因子：每个元素的缩放因子为 $s_{X}^{(i)} \cdot s_{W}^{(j)}$ 。

输入描述

输入为矩阵

$X \in \mathbb{R}^{M \times K}$ 输入矩阵

$W \in \mathbb{R}^{K \times N}$ 权重矩阵

其中

$0 < M, K, N <= 128$

$-1000000.0 <=$ 矩阵元素值 $<= 1000000.0$

标准输入方式读入，按照 $X$ 、 $W$ 顺序读入，前两个数字为矩阵大小。

输出描述

输出量化后矩阵相乘结果（带 $scale$ 计算），并四舍五入到小数点后两位小数【建议使用Python format(num, '.2f')处理】。注意：每行结果以单个空格间隔，头尾不要有多余空格。

样例1

输入

2 2
1.0 0.5
-0.5 2.0
2 2
0.8 -0.3
1.2 1.5

输出

1.41 0.46
2.00 3.15

说明

样例2

输入

2 3
1.2 -2.3 3.4
-4.5 5.6 -6.7
3 2
0.8 -1.9
2.0 -2.1
3.2 3.3

输出

7.27 13.78
-13.92 -25.37

说明

以上输入对应如下矩阵内容：

输入矩阵 $X(2 * 3, M=2\ \text{Tokens})$

X=\begin{bmatrix}1.2&-2.3&3.4\\-4.5&5.6&-6.7\end{bmatrix}

权重矩阵 $W(3 * 2, N=2\ \text{Channels})$

W=\begin{bmatrix}0.8&-1.9\\2.0&-2.1\\3.2&3.3\end{bmatrix}

对应如下矩阵结果：

out_{\text{fp}32}=\begin{bmatrix}7.27&13.78\\-13.92&-25.37\end{bmatrix}

#P4548. 第3题-模型INT8量化计算

第3题-模型INT8量化计算

解题思路

题目内容

2. 量化公式

3.量化矩阵乘法

输入描述

输出描述

样例1

样例2

Status

Development

Support

About