值得信赖的区块链资讯!
零知识证明 – FPGA vs. GPU
来源:Star Lisparkbyte
文章内容:
零知识证明技术应用越来越广,隐私证明,计算证明,共识证明等等。在寻找更多更好的应用场景的同时,很多人逐步发现零知识证明证明性能是个瓶颈。Trapdoor Tech团队从2019年开始深入研究零知识证明技术,并一直探索高效的零知识证明加速方案。GPU或者FPGA是目前市面上比较常见的加速平台。本文从MSM的计算入手,分析FPGA和GPU加速零知识证明计算的优缺点。
TL;DR
ZKP是拥有未来广泛前景的技术。越来越多的应用开始采用零知识证明技术。但ZKP算法比较多,各种项目使用不同的ZKP算法。同时,ZKP证明的计算性能比较差。本文详细分析了MSM算法,椭圆曲线点加算法,蒙哥马利乘法算法等等,并对比了GPU和FPGA在BLS12_381曲线点加的性能差别。总的来说,在ZKP证明计算方面,短期GPU优势比较明显,Throughput高,性价比高,具有可编程性等等。FPGA相对来说,功耗有一定的优势。长期看,有可能出现适合ZKP计算的FPGA芯片,也可能为ZKP定制的ASIC芯片。
ZKP是个零知识证明技术的统称(Zero Knowledge Proof)。主要由两种分类:zk-SNARK以及zk-STARK。zk-SNARK目前常见的算法是Groth16,PLONK,PLOOKUP,Marlin和Halo/Halo2。zk-SNARK算法的迭代主要是沿着两条方向:1/是否需要trusted setup 2/电路结构的性能。zk-STARK算法的优势是毋需trusted setup,但是验证计算量是对数线性的。
就zk-SNARK/zk-STARK算法的应用来看,不同项目使用的零知识证明算法相对分散。zk-SNARK算法应用中,因为PLONK/Halo2算法是universal(无需trusted setup),应用可能越来越多。
以PLONK算法为例,剖析一下PLONK证明的计算量。
PLONK证明部分的计算量由四部分组成:
1/ MSM – Multiple Scalar Multiplication。MSM经常用来计算多项式承诺。
2/ NTT计算 – 多项式在点值和系数表示之间变换。
3/ Polynomial计算 – 多项式加减乘除。多项式求值(Evaluation)等等。
4/ Circuit Synthesize – 电路综合。这部分的计算和电路的规模/复杂度有关。
Circuit Synthesize部分的计算量一般来说判断和循环逻辑比较多,并行度比较低,更适合CPU计算。通常来讲,零知识证明加速一般指的是前三部分的计算加速。其中,MSM的计算量相对来说最大,NTT次之。
MSM(Multiple Scalar Multiplication)指的是给定一系列的椭圆曲线上的点和标量,计算出这些点加的结果对应的点。
比如说,给定一个椭圆曲线上的一系列的点:
Given a fixed set of Elliptic curve points from one specified curve:
[G_1, G_2, G_3, ..., G_n]
以及随机的系数:
and a randomly sampled finite field elements from specified scalar field:
[s_1, s_2, s_3, ..., s_n]
MSM is the calculation to get the Elliptic curve point Q:
Q = sum_{i=1}^{n}s_i*G_i
行业普遍采用Pippenger算法对MSM计算进行优化。深入看看Pippenger算法的过程的示意图:
Pippenger算法的计算过程分成两步:
1/ Scalar切分为Windows。如果Scalar是256bits,并且一个Window是8bits,则所有的Scalar切分为256/8=32个Window。每一层的Window,采用一个“Buckets”临时存放中间结果。GW_x就是一层上的累加结果的点。计算GW_x也比较简单,依次遍历一层中的每个Scalar,根据Scalar这层的值作为Index,将对应的 G_x加到相应的Buckets的位上。其实原理也比较简单,如果两个点加的系数相同,则先将两个点相加后再做一次Scalar加,而不需要两个点做两次Scalar加后再累加。
2/ 每个Window计算出来的点,再通过double-add的方式进行累加,从而得到最后的结果。
Pippenger算法也有很多变形优化算法。不管怎么说,MSM算法的底层计算就是椭圆曲线上的点加。不同的优化算法,对应不同的点加个数。
你可以从这个网站看看具有“short Weierstrass”形式的椭圆曲线上点加的各种算法。
http://www.hyperelliptic.org/EFD/g1p/auto-shortw-jacobian-0.html#addition-madd-2007-bl
假设两个点的Projective坐标分别为(x1, y1, z1) 和 (x2, y2, z2) ,则通过如下的计算公式可以计算出点加的结果(x3, y3, z3)。
Z1Z1 = Z12
U2 = X2*Z1Z1
S2 = Y2*Z1*Z1Z1
H = U2-X1
HH = H2
I = 4*HH
J = H*I
r = 2*(S2-Y1)
V = X1*I
X3 = r2-J-2*V
Y3 = r*(V-X3)-2*Y1*J
Z3 = (Z1+H)2-Z1Z1-HH
详细给出计算过程的原因是想表明整个计算过程绝大部分是整数运算。整数的位宽取决于椭圆曲线的参数。给出一些常见的椭圆曲线的位宽:
-
BN256 – 256bits
-
BLS12_381 – 381bits
-
BLS12_377 – 377bits
特别注意的是,这些整数运算是在模域上的运算。模加/模减相对来说简单,重点看看模乘的原理和实现。
给定模域上的两个值:x和y。模乘计算指的是 x*y mod p。注意这些整数的位宽是椭圆曲线的位宽。模乘的经典算法是蒙哥马利乘法(Montgomery Muliplication)。在进行蒙哥马利乘法之前,被乘数需要转化为蒙哥马利表示:
蒙哥马利乘法计算公式如下:
蒙哥马利乘法实现算法又有很多:CIOS (Coarsely Integrated Operand Scanning),FIOS(Finely Integrated Operand Scanning),以及 FIPS(Finely Integrated Product Scanning)等等。本文不深入介绍各种算法实现的细节,感兴趣的读者可以自行研究。
为了对比FPGA以及GPU的本身的性能差别,选择最基本的算法实现方法:
1. t = a * b
2. m = (t * n') mod r
3. tmp = t + m * n
4. u= tmp / r
5. if (u > n) result = u - n else result = u
简单的说,模乘算法可以进一步分成两种计算:大数乘法和大数加法。理解了MSM的计算逻辑的基础上,可以选择模乘的性能(Throughput)来对比FPGA和GPU的性能。
Xilinx FPGA的UltraScale+系列是最新的产品线。VU9P是中端产品。AWS FPGA云平台也是采用VU9P芯片。
FPGA自带的DSP是宝贵的资源。为了保证系统clock,采用DSP设计大数模乘(包括大数乘法和大数加法)。VU9P内部的DSP信号是DSP48E2,其逻辑功能图如下:
DSP48E2核心逻辑由一个27*18的乘法器以及一个算术计算器(加减/逻辑操作)。为了防止乘法溢出,在进行大数乘法计算时,可以把DSP48E2当作17*17的模块。
为了对比FPGA和GPU的Modular Multiplication的性能,选定BLS12_381曲线。也就是说,模乘的位宽是381bit。利用FPGA的DSP的缘故,为了17bits对齐,位宽扩展为391bits(23*17bits)。
整个Pipelined Modular Multiplication的设计逻辑如下:
模乘的电路模块总共采用25个DSP,并分为两部分,一部分由23个DSP组成,实现大数乘法,另外一部分由2个DSP组成分别实现大数加/减。显然可以发现,大数乘法需要23 clocks完成,每个clock完成X*17bits。大数加和大数减的计算因为采用一个DSP,也需要23 clocks完成。这样的设计下,大数乘法的内部计算是pipeline的,大数乘法和大数加/减之间也是pipeline的。
因为模乘需要3个大数乘法和若干个大数加/减,381bits的模乘计算需要3*23=69个clocks。
在这样的FPGA设计下,可以估算出整个VU9P能提供的在BLS12_381椭圆曲线点加Throughput。一个点加(add_mix方式)大约需要12个模乘。FPGA的系统时钟为450M。
(6840/25)*(450/69)/12 = 104.3M/s
在同样的模乘/模加算法下,采用同样的点加算法,Nvidia 3090的点加Troughput(考虑到数据传输因素)超过500M/s。当然,整个计算涉及到多种算法,可能存在某些算法适合FPGA,有些算法适合GPU。采用一样的算法对比的原因,想对比FPGA和GPU的核心计算能力。
在这样的计算能力差异下,再分析一下性价比的差异:
-
Xilinx VU9P board – $8394
https://www.xilinx.com/products/boards-and-kits/vcu118.html
-
Nvidia 3090 – $1499
https://store.nvidia.com/en-us/geforce/store/?page=1&limit=9&locale=en-us&category=DESKTOP,GPU&gpu=RTX%203090,RTX%203090%20Ti
在这样的情况下,我们来看看产品的性价比:
8394*500/1499/104.3 = 26.8
也就是说,从性价比的角度看,Nvidia 3090是Xilinx VU9P的26倍。
Note:有关Xilinx VU9P的开发板,本身量比较少。能查到的公开价格也比较少,可能价格有偏差。其他FPGA芯片的性价比可以按照类似的逻辑进行计算。
基于上述的结果,总结一下GPU和FPGA在ZKP证明性能方面的比较:
Xilinx的VCK5000平台,采用VC1902芯片(7nm工艺),实现AI加速引擎。价格相对便宜:$2,745.00。
https://www.xilinx.com/products/boards-and-kits/vck5000.html
这款芯片除了可编程逻辑外(Programmable Logic),还配备了AI和DSP引擎。DSP引擎由1968个DSP58组成。AI引擎由400个AI Core组成。目前还不确定在这种芯片上的MSM/FFT的性能,不过值得期待。
总结:
越来越多的应用开始采用零知识证明技术。但ZKP算法比较多,各种项目使用不同的ZKP算法。从我们的实践工程经验来看,FPGA是个选项,但是目前GPU是个性价比高选项。FPGA偏好确定性计算,有latency以及功耗的优势。GPU可编程性高,有相对成熟的高性能计算的框架,开发迭代周期短,偏好需要throughput场景。
比推快讯
更多 >>- 博斯蒂克:稳定的劳动力市场为美联储提供等待空间
- 博斯蒂克:现在说通胀工作已完成还为时过早
- 博斯蒂克:当前政策并非高度限制性,预计 2026 年不会降息
- 数据:1000 枚 BTC 从匿名地址转出,价值约 774 万美元
- 博斯蒂克:尚未摆脱因关税引发的通货膨胀问题
- 博斯蒂克:通胀居高不下,令人担忧
- 博斯蒂克:2026 年经济前景将持续强劲
- 法国 3 男子涉嫌绑 74 岁老人以勒索其儿子的加密资产,折磨近 16 小时发现抓错人后释放人质
- 受美国政府部分停摆影响,1 月就业数据不会按时公布
- 特朗普释放关税利好消息,美国对印度关税降至 18%
- 美国股指涨幅扩大,道指涨幅达 1%
- Circle 在 Solana 网络上增发 7.5 亿枚 USDC
- Tom Lee:加密目前可能正在筑底,抛售潮正逐渐失去动力
- 阿根廷加密诈骗嫌疑人在委内瑞拉被捕,此前他“携价值 5600 万美元的比特币潜逃”
- Sky Protocol 一月回购 1.3 亿枚 SKY,回购总金额已超 1.06 亿美元
- 数据:持有超一千枚 BTC 的巨鲸为当前唯一坚持买入的群体,持仓小于 10 枚的散户群体已持续抛售一个月
- 印度拟探索跨境使用数字卢比,以降低支付成本、提高贸易结算效率
- 高盛:以太坊基本面强劲,1 月日均新增地址数量远超DeFi Summer时期
- 摩根士丹利:沃什治下美联储变化将通过缩表显现
- 数据:BTC 突破 79000 美元
- 数据:29.5 枚 WBTC 从 Wintermute 转入 Binance,价值约 230 万美元
- 一个新创建地址在过去 3 小时内花费 5521 万美元买入 704.76 枚 BTC
- 数据:黄立成多单规模加仓至 1200 枚 ETH,约合 284 万美元
- Uniswap 网页版应用上的拍卖功能现已上线
- 某新建地址向 HyperLiquid 存入 318 万 U 以 20 倍做多 ETH
- 麻吉大哥再次向 Hyperliquid 存入 25 万 USDC,并开启 ETH 的及 HYPE 多单
- 麻吉屡败屡战再次 25 倍开多 ETH
- 美元指数 DXY 短线走高约 10 点,现报 97.5
- Santimen:散户悲观情绪进入极端区间,市场或将迎来技术性反弹
- 美国检察官指责稳定币法案纵容加密公司从欺诈中获利
- 数据:DWF Labs 向匿名地址转移 280 万 USDT,价值 280 万美元
- 芝加哥期权交易所拟重启二元期权,以进军预测市场
- Tom Lee:目前 Bitmine 没有负债,近期市场回调“极具吸引力”
- 美股开盘加密板块普跌,SharpLink (SBET) 下跌 7.55%
- Solana dApp 1 月份共产生超 1.46 亿美元收入,在所有 L1 和 L2 链中排名首位
- 2025 年对加密货币持有者的扳手攻击造成 4090 万美元损失,事件数量同比增长 75%
- HyperCore 提案 HIP-4:为链上预测市场构建原生结果交易基础设施
- Base 生态代币 KellyClaude 日内涨超 200%,市值短时突破 800 万美元
- Arcium 在 Solana 上启动其主网 Alpha 版本,Umbra 同步推出屏蔽金融层
- 观点:提名 Kevin Warsh 为美联储主席对比特币喜忧参半
- Strategy 的 BTC 持仓浮盈 13.32 亿美元,BitMine 的 ETH 持仓浮亏 65 亿美元
- Binance:至少拥有 241 分的用户可申领 50 枚 ELON 空投
- Bitmine 上周买入 41788 枚 ETH,目前持有 99 亿美元 ETH
- BitMine 上周增持 41,788 枚 ETH,Tom Lee 称市场低迷因仍受 1011 暴跌余波影响
- 上周全球上市公司净买入 BTC 1.23 亿美元, Strategy 投入 7,530 万美元购买 855 枚比特币
- Zhu Su 评易理华&1011 内幕巨鲸:顶部清仓后容易因自信而过早重新进场
- 数据:监测到 4,565.58 万 USDT 转出 Binance
- 韩国监管机构引入 AI 算法以监测加密市场操纵
- 贝莱德将 6918 枚 BTC 和 5.8 万枚 ETH 存入 Coinbase Prime,总价值 6.72 亿美元
- ZAMA 上线现报 0.0327 USDT,24H 跌幅 29.3%
比推专栏
更多 >>- Challenge,risk And chances|0130 Asian
- Meta 豪赌 AI:砸钱 1350 亿美元,2026 的扎克伯格,值得相信么?
- Variables: Terrible snowstorm|0128 Asian
- 英特尔「生死线」时刻:在 ICU 门前,陈立武如何清算遗产并开启自救?
- 從1月13號到今天,提前到5100|0126Asian
- You Should work HARDER in 2026|0120 Asian
- 硅谷最聪明那群人的「终极推演」:2026,我们应该「All-In」什么?
- Notice us dollar index|0116 in us
- 我们用大模型,给 2026 年的代币化/Web3「算了一卦」
- 十年新低 金銀比將帶我們走向何方|0113
比推 APP



