论文阅读——使用分区截断奇异值分解滤波的近似卷积

简介: 本文提出了一种基于分区截断奇异值分解(PTSVD)的近似卷积方法,旨在降低大型卷积运算的计算复杂度与内存占用,适用于音频信号处理等实时应用场景。该方法通过将脉冲响应分段并进行奇异值分解,仅保留主要奇异值对应的向量进行重构,从而实现高效滤波。实验表明,该方法在保持高精度的同时显著降低了运算量和存储需求,尤其适用于长房间脉冲响应的处理。

使用分区截断奇异值分解滤波的近似卷积

J. Atkins, A. Strauss and C. Zhang, "Approximate convolution using partitioned truncated singular value decomposition filtering," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, 2013, pp. 176-180

引言

在现代信号处理系统中,大型卷积运算的实时实现一直是一个具有挑战性的问题。特别是在音频信号处理领域,无论是电信还是多媒体应用,经常需要处理非常长的房间脉冲响应(RIR),这些响应可能包含数万个系数。传统的实现方法,如重叠相加(overlap-add)和重叠保留(overlap-save)技术,虽然通过频域处理降低了计算复杂度,但固有的块处理结构引入了系统延迟,这在许多实时应用中是不可接受的。

本文深入分析了Beats Electronics研究团队提出的分区截断奇异值分解(Partitioned Truncated Singular Value Decomposition, PTSVD)滤波方法。这种方法通过将脉冲响应在时间上分区,利用奇异值分解进行因式分解,然后仅使用对应于最大奇异值的部分奇异向量进行重构,实现了计算复杂度和内存占用的显著降低。

数学框架与理论基础

滤波器的矩阵表示

考虑一个长度为$L$的脉冲响应:
$$\mathbf{h} = [h(0), h(1), \ldots, h(L-1)]^T$$

将这个脉冲响应分区成$P$个长度为$N$的段,其中$N = \lceil L/P \rceil$。如果必要,对$\mathbf{h}$进行零填充使其长度恰好为$P \times N$。通过这种分区,我们可以构造一个$N \times P$的矩阵$\mathbf{H}$:

$$\mathbf{H} = \begin{bmatrix} h(0) & h(N) & h(2N) & \cdots & h((P-1)N) \\ h(1) & h(N+1) & h(2N+1) & \cdots & h((P-1)N+1) \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ h(N-1) & h(2N-1) & h(3N-1) & \cdots & h(PN-1) \end{bmatrix}$$

这种矩阵化表示的巧妙之处在于,矩阵的每一列代表了原始滤波器的一个时间分区,相邻列之间相差$N$个采样点的延迟。

奇异值分解

对矩阵$\mathbf{H}$进行奇异值分解:
$$\mathbf{H} = \mathbf{U}\mathbf{S}\mathbf{V}^H$$

其中:

  • $\mathbf{U} \in \mathbb{C}^{N \times N}$ 是左奇异向量矩阵,其列向量形成$\mathbb{C}^N$空间的标准正交基
  • $\mathbf{V} \in \mathbb{C}^{P \times P}$ 是右奇异向量矩阵,其列向量形成$\mathbb{C}^P$空间的标准正交基
  • $\mathbf{S} \in \mathbb{R}^{N \times P}$ 是对角矩阵,主对角线上包含按降序排列的奇异值$\sigma_1 \geq \sigma2 \geq \cdots \geq \sigma{\min(N,P)} \geq 0$

低秩近似与误差分析

通过仅保留最大的$M$个奇异值及其对应的奇异向量,我们得到秩为$M$的近似:
$$\mathbf{H}_M = \mathbf{U}_M\mathbf{S}_M\mathbf{V}_M^H$$

其中$\mathbf{U}_M \in \mathbb{C}^{N \times M}$,$\mathbf{S}_M \in \mathbb{R}^{M \times M}$,$\mathbf{V}_M \in \mathbb{C}^{P \times M}$。

近似误差定义为:
$$e(M, N) = \|\mathbf{H} - \mathbf{H}_M\|_2 = \sqrt{\sum_{i=M+1}^{\min(N,P)} \sigma_i^2}$$

根据Eckart-Young-Mirsky定理,这种截断SVD提供了在Frobenius范数意义下的最优秩$M$近似。

滤波器结构的实现

展开形式与信号流

将$\mathbf{H}_M$展开为外积形式:
$$\mathbf{H}_M = \sum_{m=0}^{M-1} \sigma_m \mathbf{u}_m \mathbf{v}_m^H$$

其中$\mathbf{u}_m$是$\mathbf{U}_M$的第$m$列,$\mathbf{v}_m$是$\mathbf{V}_M$的第$m$列。

对于输入信号$x(n)$,输出信号可以表示为:
$$y(n) = \sum_{p=0}^{P-1} \sum_{m=0}^{M-1} v_m^{(p)} \sigma_m \mathbf{u}_m^T \mathbf{x}(n - pN)$$

其中$v_m^{(p)}$是向量$\mathbf{v}_m$的第$p$个元素,$\mathbf{x}(n - pN)$是时刻$(n - pN)$的最近$N$个输入样本组成的向量。

图像分析与解释

图1:典型房间脉冲响应及其PTSVD近似误差
fig111.png

图1(a)展示了一个RT60(混响时间)为400毫秒的典型房间脉冲响应。该响应在前5000个采样点内具有较高的能量集中度,随后逐渐衰减至接近零。这种能量分布特征使得低秩近似特别有效。

图1(b)呈现了一个三维误差曲面,横轴表示近似的秩$M$(从2到10),纵轴表示块长度占总长度的百分比$(N/L \times 100\%)$,颜色编码表示误差的分贝值。深蓝色区域(误差约-60dB)表明即使使用很低的秩($M=2$或3),在合适的块长度选择下也能达到非常好的近似效果。误差曲面显示出一个明显的"谷"区域,对应于最优的参数组合。

图2:PTSVD滤波器的详细结构

fig22.png

图2展示了PTSVD滤波器的完整信号流图。输入信号$x(n)$同时进入$M$个并行的滤波器分支。每个分支包含:

  1. 一个由$\sigma_m\mathbf{u}_m$定义的长度为$N$的FIR滤波器
  2. 一个由$P-1$个$z^{-N}$延迟单元组成的抽头延迟线
  3. 每个延迟抽头乘以相应的系数$v_m^{(p)}$

所有分支的输出最终求和得到输出信号$y(n)$。这种结构类似于一个分析滤波器组后接延迟线网络,但具有特殊的系数配置。

图3:IIR近似的误差分析

fig333.png

图3展示了对前4个$\mathbf{u}_m$和$\mathbf{v}_m$滤波器进行IIR近似的频域误差(以dB为单位)。左列显示$\mathbf{u}_m$滤波器的近似误差(使用9阶IIR),右列显示$\mathbf{v}_m$滤波器的近似误差(使用41阶IIR)。蓝线表示原始FIR响应,红线表示IIR近似。误差在大部分频率范围内保持在-20dB以下,在某些频率点达到-40dB,表明IIR近似的高精度。

图4:复杂度和内存使用对比

fig444.png

图4提供了全面的性能对比分析:

  • 图4(a)和4(b)展示了基本PTSVD方法的计算复杂度和内存使用
  • 图4(c)和4(d)展示了PTSVD-IIR方法的性能
  • 虚线表示分区卷积方法的性能基准
  • 不同颜色的曲线对应不同的秩$M$(从2到10)

结果显示,对于长度超过1000的滤波器,PTSVD-IIR方法在复杂度和内存使用上都显著优于传统方法。

图5:PTSVD和PTSVD-IIR的时域误差

fig555.png

图5直接展示了近似滤波器与原始滤波器的差异。图5(a)显示基本PTSVD的误差,图5(b)显示PTSVD-IIR的误差。两种方法都能很好地保持原始响应的主要特征,误差主要集中在低能量的尾部区域。

IIR模型优化

理论基础

IIR滤波器的传递函数可以表示为:
$$H(z) = \frac{B(z)}{A(z)} = \frac{\sum_{k=0}^{Q_b} b_k z^{-k}}{1 + \sum_{k=1}^{Q_a} a_k z^{-k}}$$

对于每个$\mathbf{u}_m$和$\mathbf{v}_m$滤波器,我们寻找最小化频域误差的IIR系数:
$$\min_{a_k, b_k} \sum_{\omega} |H_{FIR}(e^{j\omega}) - H_{IIR}(e^{j\omega})|^2 W(\omega)$$

其中$W(\omega)$是频率加权函数。

实现细节

采用二阶节(Second-Order Sections, SOS)级联形式实现IIR滤波器:
$$H(z) = \prod_{i=1}^{L_{SOS}} \frac{b_{0i} + b_{1i}z^{-1} + b_{2i}z^{-2}}{1 + a_{1i}z^{-1} + a_{2i}z^{-2}}$$

这种实现方式具有更好的数值稳定性和灵活性。

复杂度的深入分析

计算复杂度比较

定义以下符号:

  • $C_{FIR}$:直接FIR实现的复杂度
  • $C_{PTSVD}$:基本PTSVD方法的复杂度
  • $C_{PTSVD-IIR}$:PTSVD-IIR方法的复杂度
  • $C_{PFC}$:分区频域卷积的复杂度

各方法的计算复杂度(每样本的乘加运算次数)为:

$$C_{FIR} = L$$

$$C_{PTSVD} = M \times (N + P)$$

$$C_{PTSVD-IIR} = 2.5M(Q_U + Q_V)$$

$$C_{PFC} = 4\alpha \log_2(2N) + 4P + 1$$

其中$\alpha$是平台相关的FFT效率因子,典型值为1.5-2.0。

内存需求分析

各方法的内存需求(变量数)为:

$$M_{FIR} = 2L$$

$$M_{PTSVD} = M \times (N + P + L) + N$$

$$M_{PTSVD-IIR} = 3.5M(Q_U + Q_V)$$

$$M_{PFC} = 4PN$$

实际应用案例研究

混响引擎仿真

对于一个典型的音乐厅混响(RT60 = 400ms,采样率48kHz,总长度$L = 20,315$),在给定的约束条件下(每样本500次运算,1000个变量的内存),通过网格搜索得到最优参数:

  • 分区长度:$N = 53$
  • 近似秩:$M = 4$
  • U滤波器IIR阶数:$Q_U = 9$
  • V滤波器IIR阶数:$Q_V = 41$

这个配置实现了:

  • 计算复杂度:500 ops/sample(相比FIR的20,315 ops/sample,改进98%)
  • 内存使用:700变量(相比FIR的40,630变量,改进98.3%)
  • 系统延迟:53样本(相比分区卷积的128样本,改进58.6%)

性能评估指标

近似质量通过多个指标评估:

  1. 时域误差
    $$E_{time} = 20\log_{10}\left(\frac{\|\mathbf{h} - \mathbf{h}_M\|_2}{\|\mathbf{h}\|_2}\right) \text{ dB}$$

  2. 频域误差
    $$E_{freq}(\omega) = 20\log_{10}\left|\frac{H(\omega) - H_M(\omega)}{H(\omega)}\right| \text{ dB}$$

  3. 感知误差(考虑人耳的频率敏感性):
    $$E_{perc} = \int_{\omega} |H(\omega) - H_M(\omega)|^2 A(\omega) d\omega$$

其中$A(\omega)$是A计权曲线。

扩展与改进方向

自适应PTSVD

对于时变系统,可以开发自适应版本:
$$\mathbf{H}_M(n) = \mathbf{U}_M(n)\mathbf{S}_M(n)\mathbf{V}_M^H(n)$$

使用递归最小二乘(RLS)或随机梯度下降(SGD)更新奇异向量。

多通道扩展

对于空间音频应用,可以将方法扩展到多输入多输出(MIMO)系统:
$$\mathbf{H}_{MIMO} = \begin{bmatrix} \mathbf{H}_{11} & \cdots & \mathbf{H}_{1Q} \\ \vdots & \ddots & \vdots \\ \mathbf{H}_{P1} & \cdots & \mathbf{H}_{PQ} \end{bmatrix}$$

通过联合SVD或张量分解实现更高效的近似。

频率选择性处理

在某些应用中,不同频段可能需要不同的近似精度。可以采用子带分解:
$$\mathbf{H} = \sum_{k=1}^{K} \mathbf{H}_k$$

其中每个$\mathbf{H}_k$对应一个频带,使用不同的秩$M_k$进行近似。

结论

PTSVD滤波方法为实时信号处理系统中的大型卷积问题提供了一个优雅而高效的解决方案。通过结合矩阵分解理论、滤波器组结构和IIR近似技术,该方法在保持高精度的同时显著降低了计算和内存需求。特别是对于音频信号处理中的混响、房间校正和空间音频渲染等应用,PTSVD方法展现出了巨大的潜力。

该方法的成功关键在于利用了实际脉冲响应的低秩特性——大多数能量集中在少数主要模式中。这种特性使得即使使用很低的秩(如$M=4$)也能获得优秀的近似精度。同时,无延迟的特性使其特别适合对延迟敏感的实时应用。


附录:数学推导

A. 最优秩-M近似

定理(Eckart-Young-Mirsky):对于任意矩阵$\mathbf{H} \in \mathbb{C}^{N \times P}$,其最优秩-$M$近似(在Frobenius范数意义下)由截断SVD给出。

证明
设$\mathbf{H} = \sum_{i=1}^r \sigma_i \mathbf{u}_i \mathbf{v}_i^H$是$\mathbf{H}$的完整SVD,其中$r = \text{rank}(\mathbf{H})$。

对于任意秩为$M$的矩阵$\mathbf{B}$,定义误差:
$$E(\mathbf{B}) = \|\mathbf{H} - \mathbf{B}\|_F^2$$

展开Frobenius范数:
$$E(\mathbf{B}) = \text{tr}[(\mathbf{H} - \mathbf{B})^H(\mathbf{H} - \mathbf{B})]$$

由于$\mathbf{U}$和$\mathbf{V}$是酉矩阵,我们有:
$$E(\mathbf{B}) = \|\mathbf{U}^H\mathbf{H}\mathbf{V} - \mathbf{U}^H\mathbf{B}\mathbf{V}\|_F^2 = \|\mathbf{S} - \tilde{\mathbf{B}}\|_F^2$$

其中$\tilde{\mathbf{B}} = \mathbf{U}^H\mathbf{B}\mathbf{V}$。

由于$\text{rank}(\tilde{\mathbf{B}}) \leq \text{rank}(\mathbf{B}) = M$,$\tilde{\mathbf{B}}$最多有$M$个非零奇异值。为最小化$|\mathbf{S} - \tilde{\mathbf{B}}|_F^2$,最优选择是让$\tilde{\mathbf{B}}$保留$\mathbf{S}$的前$M$个最大奇异值:

$$\tilde{\mathbf{B}}_{opt} = \text{diag}(\sigma_1, \ldots, \sigma_M, 0, \ldots, 0)$$

因此:
$$\mathbf{B}_{opt} = \mathbf{U}\tilde{\mathbf{B}}_{opt}\mathbf{V}^H = \sum_{i=1}^M \sigma_i \mathbf{u}_i \mathbf{v}_i^H = \mathbf{H}_M$$

最小误差为:
$$E_{min} = \sum_{i=M+1}^r \sigma_i^2$$

B. 滤波器实现的等价性证明

命题:PTSVD滤波器结构与原始FIR滤波器的截断近似在数学上是等价的。

证明
从卷积的定义开始:
$$y(n) = \sum_{k=0}^{L-1} h(k)x(n-k)$$

将求和按分区重新组织:
$$y(n) = \sum_{p=0}^{P-1} \sum_{i=0}^{N-1} h(pN + i)x(n - pN - i)$$

定义$\mathbf{h}_p = [h(pN), h(pN+1), \ldots, h(pN+N-1)]^T$为第$p$个分区,则:
$$y(n) = \sum_{p=0}^{P-1} \mathbf{h}_p^T \mathbf{x}(n - pN)$$

根据矩阵$\mathbf{H}$的构造,$\mathbf{h}_p$是$\mathbf{H}$的第$p$列。使用SVD近似:
$$\mathbf{h}_p \approx \sum_{m=0}^{M-1} \sigma_m v_m^{(p)} \mathbf{u}_m$$

代入得:
$$y(n) \approx \sum_{p=0}^{P-1} \sum_{m=0}^{M-1} \sigma_m v_m^{(p)} \mathbf{u}_m^T \mathbf{x}(n - pN)$$

这正是PTSVD滤波器结构的输出表达式。

C. IIR近似的频域分析

问题:给定FIR滤波器$h[n]$,寻找IIR滤波器系数使频域误差最小。

方程误差方法
定义频域误差:
$$E = \sum_{k=0}^{K-1} |H(e^{j\omega_k}) - H_{IIR}(e^{j\omega_k})|^2$$

其中$\omega_k = 2\pi k/K$是频率采样点。

展开$H_{IIR}(e^{j\omega})$:
$$H_{IIR}(e^{j\omega}) = \frac{\sum_{n=0}^{Q_b} b_n e^{-jn\omega}}{1 + \sum_{n=1}^{Q_a} a_n e^{-jn\omega}}$$

定义误差函数:
$$\varepsilon(\omega) = H(e^{j\omega})\left(1 + \sum_{n=1}^{Q_a} a_n e^{-jn\omega}\right) - \sum_{n=0}^{Q_b} b_n e^{-jn\omega}$$

最小二乘问题变为:
$$\min_{a_n, b_n} \sum_{k=0}^{K-1} |\varepsilon(\omega_k)|^2$$

这是一个线性最小二乘问题,可以通过正规方程求解:
$$\mathbf{A}^H\mathbf{A}\boldsymbol{\theta} = \mathbf{A}^H\mathbf{b}$$

其中$\boldsymbol{\theta} = [a1, \ldots, a{Q_a}, b0, \ldots, b{Q_b}]^T$是待求系数向量。

D. 计算复杂度的详细分析

PTSVD基本结构
每个输入样本的运算分解:

  1. $M$个长度为$N$的FIR滤波:$M \times N$次乘加
  2. $M$个长度为$P$的延迟线加权求和:$M \times P$次乘加
  3. 最终求和:$M-1$次加法

总计:$M(N + P) + (M-1) \approx M(N + P)$次运算

PTSVD-IIR结构(使用二阶节实现):

  1. $M$个$Q_U/2$阶段的输入IIR滤波:$M \times 2.5Q_U$次乘加
  2. $M$个$Q_V/2$阶段的输出IIR滤波:$M \times 2.5Q_V$次乘加

总计:$2.5M(Q_U + Q_V)$次运算

内存需求分析
PTSVD基本结构:

  • $M$个输入滤波器系数:$M \times N$
  • $M$个延迟线:$M \times L$
  • $M$个输出权重向量:$M \times P$
  • 输入缓冲:$N$

总计:$M(N + L + P) + N$个存储单元

PTSVD-IIR结构(二阶节实现):

  • 每个二阶节需要5个系数和2个状态变量
  • $M$个输入IIR:$M \times 3.5Q_U$
  • $M$个输出IIR:$M \times 3.5Q_V$

总计:$3.5M(Q_U + Q_V)$个存储单元

E. 误差传播分析

考虑量化误差和舍入误差的影响。设量化步长为$\Delta$,则量化噪声功率为:
$$\sigma_q^2 = \frac{\Delta^2}{12}$$

对于PTSVD结构,总输出噪声功率为:
$$\sigma_{out}^2 = M \times (N + P) \times \sigma_q^2$$

信噪比(SNR)为:
$$\text{SNR} = 10\log_{10}\left(\frac{\sigma_y^2}{\sigma_{out}^2}\right) = 10\log_{10}\left(\frac{12\sigma_y^2}{M(N+P)\Delta^2}\right)$$

这表明噪声功率随$M$、$N$和$P$的增加而增加,在选择参数时需要权衡近似精度和数值稳定性。

F. 参数选择的优化框架

定义多目标优化问题:
$$\begin{aligned} \min_{N,M,Q_U,Q_V} \quad & \alpha_1 \cdot e(M,N) + \alpha_2 \cdot C(M,N,Q_U,Q_V) + \alpha_3 \cdot M(M,N,Q_U,Q_V) \\ \text{s.t.} \quad & 1 \leq M \leq \min(N,P) \\ & N \cdot P \geq L \\ & Q_U, Q_V \geq 0 \\ & C(M,N,Q_U,Q_V) \leq C_{max} \\ & M(M,N,Q_U,Q_V) \leq M_{max} \end{aligned}$$

其中$\alpha_1$、$\alpha_2$、$\alpha3$是权重系数,$C{max}$和$M_{max}$是计算和内存约束。

这个非线性整数规划问题可以通过以下方法求解:

  1. 网格搜索(适用于参数空间较小的情况)
  2. 遗传算法或粒子群优化(适用于大规模搜索)
  3. 分支定界法(保证全局最优)

实践中,通常采用分层优化策略:

  1. 首先固定$N$(基于系统的块处理要求)
  2. 选择满足误差要求的最小$M$
  3. 优化IIR阶数$Q_U$和$Q_V$以满足复杂度约束
目录
相关文章
|
2月前
|
安全 数据安全/隐私保护
图片压缩工具横评:zippic与tinypng全方位对比
图片压缩是提升工作效率的关键工具,广泛应用于自媒体、网站开发及设计协作。本文对比了两款主流工具 tinypng 与 zippic,在 UI 设计、压缩效果及安全性方面的表现,帮助用户根据实际需求做出选择。
301 5
图片压缩工具横评:zippic与tinypng全方位对比
|
2月前
|
前端开发 安全 Java
基于springboot+vue开发的会议预约管理系统
一个完整的会议预约管理系统,包含前端用户界面、管理后台和后端API服务。 ### 后端 - **框架**: Spring Boot 2.7.18 - **数据库**: MySQL 5.6+ - **ORM**: MyBatis Plus 3.5.3.1 - **安全**: Spring Security + JWT - **Java版本**: Java 11 ### 前端 - **框架**: Vue 3.3.4 - **UI组件**: Element Plus 2.3.8 - **构建工具**: Vite 4.4.5 - **状态管理**: Pinia 2.1.6 - **HTTP客户端
288 4
基于springboot+vue开发的会议预约管理系统
|
2月前
|
API 语音技术 开发者
Python 项目打包,并上传到 PyPI,分享项目
本文介绍了如何使用 Poetry 打包并发布一个 Python 项目至 PyPI。内容包括:项目创建、配置 `pyproject.toml` 文件、构建软件包、上传至 PyPI、安装与使用。通过实例 iGTTS 展示了从开发到发布的完整流程,帮助开发者快速分享自己的 Python 工具。
如何将Markdown文章轻松地搬运到微信公众号并完美地呈现代码内容
相信有很多童鞋跟我一样,热衷于用Markdown来编写文章。由于其简单的语法和清晰的渲染效果,受到广大码农朋友们的推崇。但是,当我们想维护起自己的公众号时,公众号编辑器往往让我们费劲了脑汁。本人尝试了各种工具,比如:秀米一些在线提供多种不同样式的编辑器。虽然这些编辑器都能够完成编辑任务,但是效果并不理想。与我们所追求的简洁、清晰风格总是格格不入,尤其是对于代码的展示非常的不友好。所以,这里给大家推荐一个本站的在线工具,可以帮助大家快速地把Markdown文章转换成微信公众号支持的漂亮格式。
658 0
如何将Markdown文章轻松地搬运到微信公众号并完美地呈现代码内容
人工智能 关系型数据库 分布式数据库
253 19
|
1月前
|
SQL 编解码 索引
正交时频空间调制(OTFS)技术详解:基础原理与未来挑战
正交时频空间(OTFS)调制将信息嵌入延迟-多普勒域,有效应对高速移动下的多普勒效应。相比OFDM,OTFS在高动态信道中具备全分集增益、低导频开销与强鲁棒性,是6G候选技术之一。
305 0
|
2月前
|
存储 机器学习/深度学习 数据库
用于最近邻搜索的乘积量化——论文阅读
本文介绍了用于最近邻搜索的乘积量化方法,通过将高维向量划分为低维子空间并分别量化,实现高效近似欧氏距离计算。该方法结合非对称距离计算(ADC)与倒排文件系统(IVFADC),在保持高搜索精度的同时显著降低计算复杂度和内存占用。实验表明,乘积量化在SIFT和GIST描述符上的表现优于现有方法,适用于大规模图像检索等应用。
48 1
用于最近邻搜索的乘积量化——论文阅读
|
5月前
|
关系型数据库 分布式数据库 数据库
再获殊荣,阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
内存池化技术新突破,阿里云PolarDB蝉联SIGMOD最佳论文奖
|
2月前
|
存储 算法 语音技术
无乘法器的多常数乘法——论文简读
本文研究了无乘法器的多常数乘法(MCM)问题,旨在通过加法、减法和移位操作高效实现多个常数与变量的乘法,在降低硬件成本和功耗方面具有重要意义。
68 2
无乘法器的多常数乘法——论文简读
存储 人工智能 Serverless
301 35