weight_only_linear¶
- paddle.nn.quant. weight_only_linear ( x, weight, bias=None, weight_scale=None, weight_dtype='int8', arch=None ) [源代码] ¶
应用两个张量的矩阵乘法。若提供了偏置,则进行偏置加法。
此方法要求 CUDA 版本不低于 11.2。
参数¶
x (Tensor) - 第一个输入张量,将被乘以,数据类型为 float16 或 bfloat16。
weight (Tensor) - 第二个输入张量,将被乘以。其秩必须为 2。
bias (Tensor|None) - 输入的偏置张量。如果为 None,则不执行偏置加法。否则,偏置将被加到矩阵乘法结果上。
weight_scale (Tensor|None) - 提供给权重的输入比例张量,用于反量化。其秩必须为 1。
weight_dtype (str) - 权重张量的数据类型,必须是 'int8', 'int4' 之一,默认为 'int8'。
arch (int) - 针对目标设备的计算架构。例如,A100 为 80,v100 为 70,如果您没有指定架构,我们将从您的设备获取架构,默认为 None。
返回¶
Tensor
:输出张量,其数据类型与 x 相同。
代码示例:¶
>>> import paddle
>>> from paddle.nn.quant import weight_only_linear
>>> x = paddle.cast(paddle.randn([1, 2, 64]), dtype='float16')
>>> weight = paddle.cast(paddle.randint(0, 127, [32, 64]), dtype='int8')
>>> scale = paddle.randn([32], dtype='float32')
>>> bias = paddle.cast(paddle.randn([32]), dtype='float16')
>>> if paddle.device.cuda.get_device_capability()[0] >= 8:
... out = weight_only_linear(x, weight, bias=bias, weight_scale=scale, weight_dtype='int8')
... print(out.shape)
[1, 2, 32]