值得信赖的区块链资讯!
零知识证明 – FPGA vs. GPU
来源:Star Lisparkbyte
文章内容:
零知识证明技术应用越来越广,隐私证明,计算证明,共识证明等等。在寻找更多更好的应用场景的同时,很多人逐步发现零知识证明证明性能是个瓶颈。Trapdoor Tech团队从2019年开始深入研究零知识证明技术,并一直探索高效的零知识证明加速方案。GPU或者FPGA是目前市面上比较常见的加速平台。本文从MSM的计算入手,分析FPGA和GPU加速零知识证明计算的优缺点。
TL;DR
ZKP是拥有未来广泛前景的技术。越来越多的应用开始采用零知识证明技术。但ZKP算法比较多,各种项目使用不同的ZKP算法。同时,ZKP证明的计算性能比较差。本文详细分析了MSM算法,椭圆曲线点加算法,蒙哥马利乘法算法等等,并对比了GPU和FPGA在BLS12_381曲线点加的性能差别。总的来说,在ZKP证明计算方面,短期GPU优势比较明显,Throughput高,性价比高,具有可编程性等等。FPGA相对来说,功耗有一定的优势。长期看,有可能出现适合ZKP计算的FPGA芯片,也可能为ZKP定制的ASIC芯片。
ZKP是个零知识证明技术的统称(Zero Knowledge Proof)。主要由两种分类:zk-SNARK以及zk-STARK。zk-SNARK目前常见的算法是Groth16,PLONK,PLOOKUP,Marlin和Halo/Halo2。zk-SNARK算法的迭代主要是沿着两条方向:1/是否需要trusted setup 2/电路结构的性能。zk-STARK算法的优势是毋需trusted setup,但是验证计算量是对数线性的。
就zk-SNARK/zk-STARK算法的应用来看,不同项目使用的零知识证明算法相对分散。zk-SNARK算法应用中,因为PLONK/Halo2算法是universal(无需trusted setup),应用可能越来越多。
以PLONK算法为例,剖析一下PLONK证明的计算量。
PLONK证明部分的计算量由四部分组成:
1/ MSM – Multiple Scalar Multiplication。MSM经常用来计算多项式承诺。
2/ NTT计算 – 多项式在点值和系数表示之间变换。
3/ Polynomial计算 – 多项式加减乘除。多项式求值(Evaluation)等等。
4/ Circuit Synthesize – 电路综合。这部分的计算和电路的规模/复杂度有关。
Circuit Synthesize部分的计算量一般来说判断和循环逻辑比较多,并行度比较低,更适合CPU计算。通常来讲,零知识证明加速一般指的是前三部分的计算加速。其中,MSM的计算量相对来说最大,NTT次之。
MSM(Multiple Scalar Multiplication)指的是给定一系列的椭圆曲线上的点和标量,计算出这些点加的结果对应的点。
比如说,给定一个椭圆曲线上的一系列的点:
Given a fixed set of Elliptic curve points from one specified curve:
[G_1, G_2, G_3, ..., G_n]
以及随机的系数:
and a randomly sampled finite field elements from specified scalar field:
[s_1, s_2, s_3, ..., s_n]
MSM is the calculation to get the Elliptic curve point Q:
Q = sum_{i=1}^{n}s_i*G_i
行业普遍采用Pippenger算法对MSM计算进行优化。深入看看Pippenger算法的过程的示意图:
Pippenger算法的计算过程分成两步:
1/ Scalar切分为Windows。如果Scalar是256bits,并且一个Window是8bits,则所有的Scalar切分为256/8=32个Window。每一层的Window,采用一个“Buckets”临时存放中间结果。GW_x就是一层上的累加结果的点。计算GW_x也比较简单,依次遍历一层中的每个Scalar,根据Scalar这层的值作为Index,将对应的 G_x加到相应的Buckets的位上。其实原理也比较简单,如果两个点加的系数相同,则先将两个点相加后再做一次Scalar加,而不需要两个点做两次Scalar加后再累加。
2/ 每个Window计算出来的点,再通过double-add的方式进行累加,从而得到最后的结果。
Pippenger算法也有很多变形优化算法。不管怎么说,MSM算法的底层计算就是椭圆曲线上的点加。不同的优化算法,对应不同的点加个数。
你可以从这个网站看看具有“short Weierstrass”形式的椭圆曲线上点加的各种算法。
http://www.hyperelliptic.org/EFD/g1p/auto-shortw-jacobian-0.html#addition-madd-2007-bl
假设两个点的Projective坐标分别为(x1, y1, z1) 和 (x2, y2, z2) ,则通过如下的计算公式可以计算出点加的结果(x3, y3, z3)。
Z1Z1 = Z12
U2 = X2*Z1Z1
S2 = Y2*Z1*Z1Z1
H = U2-X1
HH = H2
I = 4*HH
J = H*I
r = 2*(S2-Y1)
V = X1*I
X3 = r2-J-2*V
Y3 = r*(V-X3)-2*Y1*J
Z3 = (Z1+H)2-Z1Z1-HH
详细给出计算过程的原因是想表明整个计算过程绝大部分是整数运算。整数的位宽取决于椭圆曲线的参数。给出一些常见的椭圆曲线的位宽:
-
BN256 – 256bits
-
BLS12_381 – 381bits
-
BLS12_377 – 377bits
特别注意的是,这些整数运算是在模域上的运算。模加/模减相对来说简单,重点看看模乘的原理和实现。
给定模域上的两个值:x和y。模乘计算指的是 x*y mod p。注意这些整数的位宽是椭圆曲线的位宽。模乘的经典算法是蒙哥马利乘法(Montgomery Muliplication)。在进行蒙哥马利乘法之前,被乘数需要转化为蒙哥马利表示:
蒙哥马利乘法计算公式如下:
蒙哥马利乘法实现算法又有很多:CIOS (Coarsely Integrated Operand Scanning),FIOS(Finely Integrated Operand Scanning),以及 FIPS(Finely Integrated Product Scanning)等等。本文不深入介绍各种算法实现的细节,感兴趣的读者可以自行研究。
为了对比FPGA以及GPU的本身的性能差别,选择最基本的算法实现方法:
1. t = a * b
2. m = (t * n') mod r
3. tmp = t + m * n
4. u= tmp / r
5. if (u > n) result = u - n else result = u
简单的说,模乘算法可以进一步分成两种计算:大数乘法和大数加法。理解了MSM的计算逻辑的基础上,可以选择模乘的性能(Throughput)来对比FPGA和GPU的性能。
Xilinx FPGA的UltraScale+系列是最新的产品线。VU9P是中端产品。AWS FPGA云平台也是采用VU9P芯片。
FPGA自带的DSP是宝贵的资源。为了保证系统clock,采用DSP设计大数模乘(包括大数乘法和大数加法)。VU9P内部的DSP信号是DSP48E2,其逻辑功能图如下:
DSP48E2核心逻辑由一个27*18的乘法器以及一个算术计算器(加减/逻辑操作)。为了防止乘法溢出,在进行大数乘法计算时,可以把DSP48E2当作17*17的模块。
为了对比FPGA和GPU的Modular Multiplication的性能,选定BLS12_381曲线。也就是说,模乘的位宽是381bit。利用FPGA的DSP的缘故,为了17bits对齐,位宽扩展为391bits(23*17bits)。
整个Pipelined Modular Multiplication的设计逻辑如下:
模乘的电路模块总共采用25个DSP,并分为两部分,一部分由23个DSP组成,实现大数乘法,另外一部分由2个DSP组成分别实现大数加/减。显然可以发现,大数乘法需要23 clocks完成,每个clock完成X*17bits。大数加和大数减的计算因为采用一个DSP,也需要23 clocks完成。这样的设计下,大数乘法的内部计算是pipeline的,大数乘法和大数加/减之间也是pipeline的。
因为模乘需要3个大数乘法和若干个大数加/减,381bits的模乘计算需要3*23=69个clocks。
在这样的FPGA设计下,可以估算出整个VU9P能提供的在BLS12_381椭圆曲线点加Throughput。一个点加(add_mix方式)大约需要12个模乘。FPGA的系统时钟为450M。
(6840/25)*(450/69)/12 = 104.3M/s
在同样的模乘/模加算法下,采用同样的点加算法,Nvidia 3090的点加Troughput(考虑到数据传输因素)超过500M/s。当然,整个计算涉及到多种算法,可能存在某些算法适合FPGA,有些算法适合GPU。采用一样的算法对比的原因,想对比FPGA和GPU的核心计算能力。
在这样的计算能力差异下,再分析一下性价比的差异:
-
Xilinx VU9P board – $8394
https://www.xilinx.com/products/boards-and-kits/vcu118.html
-
Nvidia 3090 – $1499
https://store.nvidia.com/en-us/geforce/store/?page=1&limit=9&locale=en-us&category=DESKTOP,GPU&gpu=RTX%203090,RTX%203090%20Ti
在这样的情况下,我们来看看产品的性价比:
8394*500/1499/104.3 = 26.8
也就是说,从性价比的角度看,Nvidia 3090是Xilinx VU9P的26倍。
Note:有关Xilinx VU9P的开发板,本身量比较少。能查到的公开价格也比较少,可能价格有偏差。其他FPGA芯片的性价比可以按照类似的逻辑进行计算。
基于上述的结果,总结一下GPU和FPGA在ZKP证明性能方面的比较:
Xilinx的VCK5000平台,采用VC1902芯片(7nm工艺),实现AI加速引擎。价格相对便宜:$2,745.00。
https://www.xilinx.com/products/boards-and-kits/vck5000.html
这款芯片除了可编程逻辑外(Programmable Logic),还配备了AI和DSP引擎。DSP引擎由1968个DSP58组成。AI引擎由400个AI Core组成。目前还不确定在这种芯片上的MSM/FFT的性能,不过值得期待。
总结:
越来越多的应用开始采用零知识证明技术。但ZKP算法比较多,各种项目使用不同的ZKP算法。从我们的实践工程经验来看,FPGA是个选项,但是目前GPU是个性价比高选项。FPGA偏好确定性计算,有latency以及功耗的优势。GPU可编程性高,有相对成熟的高性能计算的框架,开发迭代周期短,偏好需要throughput场景。
比推快讯
更多 >>- Solana 生态信用卡项目 Moto 完成 180 万美元 Pre-Seed 融资
- 嘉楠科技推出 3000 万美元股票回购计划
- 美联储理事沃勒:稳定币将增强对美元的需求
- 特朗普中期选举席位流失风险或升高,任期失业率攀升至 4.6%
- 现货黄金日内涨超 1.00%,现报 4345.40 美元/盎司
- 数据:贝莱德向 Coinbase Prime 转移 74,973 枚 ETH 和 2,257 枚 BTC
- Uniform Labs 推出代币化货币市场基金兑换协议 Multiliquid
- “1011 内幕巨鲸”将 368,106 枚 ETH 转移到 5 个新钱包,价值超 10 亿美元
- Polygon Labs 宣布投资 Boys Club,强化支付与稳定币叙事
- Ripple 与加密银行 AMINA Bank 达成合作,提供跨境结算服务
- 对冲基金 Point72 购入 390,666 股 Strategy 股票
- 金融巨头 EquiLend 对 Digital Prime Technologies 进行少数股权投资
- 美国股指期货削减涨幅,标普 500、纳指和道指均涨 0.2%
- 美联储理事沃勒发表鸽派言论, 美国国债跌幅收窄
- 美联储理事沃勒:利率水平比中性利率高出 50 到 100 个基点
- 美联储沃勒:就业市场非常疲软,降息有助于就业市场
- 麻吉大哥再次开设 10 倍杠杆 HYPE 多单,现持仓量约为 15888 枚 HYPE
- DTCC 将与 Canton Network 推动美国国债代币化
- Moon Pursuit Capital 推出规模为 1 亿美元的加密基金
- ETHGas 完成 1200 万美元种子轮融资,Polychain Capital 领投
- Arthur Hayes 地址近两日从 CEX 及 OTC 平台接收总计 3242 万枚 USDC
- 美联储调查:关税持续困扰企业,预计明年物价上涨 4%
- CZ:任何声称协助上币的信息都是骗局,近期有一位国家总统询问亦被拒绝
- NOFX 核心贡献者 Tinkle 指控 ChainOpera AI 测试网抄袭其开源 AI 交易系统代码
- 分析:11 月 CPI 报告可能只是过场戏,引爆市场的门槛极高
- 德意志银行:Coinbase“万物皆可交易”战略将推动其增长
- 德意志银行:看好 Coinbase “Everything Exchange” 战略,具备持续增长潜力
- 数据:18 万枚 LINK 从 Bitstamp 转入 B2C2 Group,价值约 229 万美元
- 赵长鹏获赦免后恢复影响力,Binance 或重新布局美国市场
- 彭博社:CZ 重返聚光灯下,Binance 评估重启美国市场布局
- 彭博社:币安正在权衡其美国市场战略
- 观点:Robinhood 股价大幅跑赢标普 500,机构看好其未来增长
- SBI Ripple Asia 将推出基于 XRP 的收益型产品
- Tether 推出去中心化密码管理器 PearPass,取消云端依赖
- 分析师:近期比特币价格的心理分界线位于 8.15 万美元
- 印度国会议员提出代币化立法草案,拟扩大中产投资机会
- 特朗普力挺加密货币引连锁反应,大量激进加密企业涌入股市,风险偏好上升
- 美联储购债工具显效:年末回购利率预期回落
- 分析:衍生品市场显示 BTC 近期或有波动,宏观数据发布前加密市场相对平静
- K33:比特币长期持有者抛压接近饱和,分配周期或步入尾声
- 分析:比特币本轮下跌不同以往,未伴随重大危机但资金持续撤离
- Messari:BNB Chain 上稳定币市值增长 32.3% 至 139 亿美元
- 比特币矿企 Hut 8 签署价值达 70 亿美元的数据中心租赁协议
- ETHZilla 发布董事长致股东信,披露以太坊与 RWA 代币化战略进展
- 某鲸鱼向币安存入 10169 枚 ETH,若出售将获利 1136 万美元
- 香港证监会:Q3 虚拟资产现货 ETF 总市值超 9 亿美元,代币化货币市场基金资管规模近 7 亿美元
- 早期比特币投资者 Nick Rose 加倍投资比特币挖矿与 AI 数据中心
- 疑似在 BNB Chain 上线的新稳定币“U”计划于 12 月 18 日推出
- 路透社:加密市场回调后投资者趋于谨慎,新策略或受青睐
- HashKey Holdings 正式登陆联交所,多位香港金融界重要人士出席见证
比推专栏
更多 >>观点
比推热门文章
- 嘉楠科技推出 3000 万美元股票回购计划
- 美联储理事沃勒:稳定币将增强对美元的需求
- 特朗普中期选举席位流失风险或升高,任期失业率攀升至 4.6%
- 现货黄金日内涨超 1.00%,现报 4345.40 美元/盎司
- 数据:贝莱德向 Coinbase Prime 转移 74,973 枚 ETH 和 2,257 枚 BTC
- Uniform Labs 推出代币化货币市场基金兑换协议 Multiliquid
- “1011 内幕巨鲸”将 368,106 枚 ETH 转移到 5 个新钱包,价值超 10 亿美元
- Pump.fun能否在2026年破解创作者代币难题
- Polygon Labs 宣布投资 Boys Club,强化支付与稳定币叙事
- Ripple 与加密银行 AMINA Bank 达成合作,提供跨境结算服务
比推 APP



