
零知识证明 – FPGA vs. GPU
来源:Star Lisparkbyte
文章内容:
零知识证明技术应用越来越广,隐私证明,计算证明,共识证明等等。在寻找更多更好的应用场景的同时,很多人逐步发现零知识证明证明性能是个瓶颈。Trapdoor Tech团队从2019年开始深入研究零知识证明技术,并一直探索高效的零知识证明加速方案。GPU或者FPGA是目前市面上比较常见的加速平台。本文从MSM的计算入手,分析FPGA和GPU加速零知识证明计算的优缺点。
TL;DR
ZKP是拥有未来广泛前景的技术。越来越多的应用开始采用零知识证明技术。但ZKP算法比较多,各种项目使用不同的ZKP算法。同时,ZKP证明的计算性能比较差。本文详细分析了MSM算法,椭圆曲线点加算法,蒙哥马利乘法算法等等,并对比了GPU和FPGA在BLS12_381曲线点加的性能差别。总的来说,在ZKP证明计算方面,短期GPU优势比较明显,Throughput高,性价比高,具有可编程性等等。FPGA相对来说,功耗有一定的优势。长期看,有可能出现适合ZKP计算的FPGA芯片,也可能为ZKP定制的ASIC芯片。
ZKP是个零知识证明技术的统称(Zero Knowledge Proof)。主要由两种分类:zk-SNARK以及zk-STARK。zk-SNARK目前常见的算法是Groth16,PLONK,PLOOKUP,Marlin和Halo/Halo2。zk-SNARK算法的迭代主要是沿着两条方向:1/是否需要trusted setup 2/电路结构的性能。zk-STARK算法的优势是毋需trusted setup,但是验证计算量是对数线性的。
就zk-SNARK/zk-STARK算法的应用来看,不同项目使用的零知识证明算法相对分散。zk-SNARK算法应用中,因为PLONK/Halo2算法是universal(无需trusted setup),应用可能越来越多。
以PLONK算法为例,剖析一下PLONK证明的计算量。
PLONK证明部分的计算量由四部分组成:
1/ MSM – Multiple Scalar Multiplication。MSM经常用来计算多项式承诺。
2/ NTT计算 – 多项式在点值和系数表示之间变换。
3/ Polynomial计算 – 多项式加减乘除。多项式求值(Evaluation)等等。
4/ Circuit Synthesize – 电路综合。这部分的计算和电路的规模/复杂度有关。
Circuit Synthesize部分的计算量一般来说判断和循环逻辑比较多,并行度比较低,更适合CPU计算。通常来讲,零知识证明加速一般指的是前三部分的计算加速。其中,MSM的计算量相对来说最大,NTT次之。
MSM(Multiple Scalar Multiplication)指的是给定一系列的椭圆曲线上的点和标量,计算出这些点加的结果对应的点。
比如说,给定一个椭圆曲线上的一系列的点:
Given a fixed set of Elliptic curve points from one specified curve:
[G_1, G_2, G_3, ..., G_n]
以及随机的系数:
and a randomly sampled finite field elements from specified scalar field:
[s_1, s_2, s_3, ..., s_n]
MSM is the calculation to get the Elliptic curve point Q:
Q = sum_{i=1}^{n}s_i*G_i
行业普遍采用Pippenger算法对MSM计算进行优化。深入看看Pippenger算法的过程的示意图:
Pippenger算法的计算过程分成两步:
1/ Scalar切分为Windows。如果Scalar是256bits,并且一个Window是8bits,则所有的Scalar切分为256/8=32个Window。每一层的Window,采用一个“Buckets”临时存放中间结果。GW_x就是一层上的累加结果的点。计算GW_x也比较简单,依次遍历一层中的每个Scalar,根据Scalar这层的值作为Index,将对应的 G_x加到相应的Buckets的位上。其实原理也比较简单,如果两个点加的系数相同,则先将两个点相加后再做一次Scalar加,而不需要两个点做两次Scalar加后再累加。
2/ 每个Window计算出来的点,再通过double-add的方式进行累加,从而得到最后的结果。
Pippenger算法也有很多变形优化算法。不管怎么说,MSM算法的底层计算就是椭圆曲线上的点加。不同的优化算法,对应不同的点加个数。
你可以从这个网站看看具有“short Weierstrass”形式的椭圆曲线上点加的各种算法。
http://www.hyperelliptic.org/EFD/g1p/auto-shortw-jacobian-0.html#addition-madd-2007-bl
假设两个点的Projective坐标分别为(x1, y1, z1) 和 (x2, y2, z2) ,则通过如下的计算公式可以计算出点加的结果(x3, y3, z3)。
Z1Z1 = Z12
U2 = X2*Z1Z1
S2 = Y2*Z1*Z1Z1
H = U2-X1
HH = H2
I = 4*HH
J = H*I
r = 2*(S2-Y1)
V = X1*I
X3 = r2-J-2*V
Y3 = r*(V-X3)-2*Y1*J
Z3 = (Z1+H)2-Z1Z1-HH
详细给出计算过程的原因是想表明整个计算过程绝大部分是整数运算。整数的位宽取决于椭圆曲线的参数。给出一些常见的椭圆曲线的位宽:
-
BN256 – 256bits
-
BLS12_381 – 381bits
-
BLS12_377 – 377bits
特别注意的是,这些整数运算是在模域上的运算。模加/模减相对来说简单,重点看看模乘的原理和实现。
给定模域上的两个值:x和y。模乘计算指的是 x*y mod p。注意这些整数的位宽是椭圆曲线的位宽。模乘的经典算法是蒙哥马利乘法(Montgomery Muliplication)。在进行蒙哥马利乘法之前,被乘数需要转化为蒙哥马利表示:
蒙哥马利乘法计算公式如下:
蒙哥马利乘法实现算法又有很多:CIOS (Coarsely Integrated Operand Scanning),FIOS(Finely Integrated Operand Scanning),以及 FIPS(Finely Integrated Product Scanning)等等。本文不深入介绍各种算法实现的细节,感兴趣的读者可以自行研究。
为了对比FPGA以及GPU的本身的性能差别,选择最基本的算法实现方法:
1. t = a * b
2. m = (t * n') mod r
3. tmp = t + m * n
4. u= tmp / r
5. if (u > n) result = u - n else result = u
简单的说,模乘算法可以进一步分成两种计算:大数乘法和大数加法。理解了MSM的计算逻辑的基础上,可以选择模乘的性能(Throughput)来对比FPGA和GPU的性能。
Xilinx FPGA的UltraScale+系列是最新的产品线。VU9P是中端产品。AWS FPGA云平台也是采用VU9P芯片。
FPGA自带的DSP是宝贵的资源。为了保证系统clock,采用DSP设计大数模乘(包括大数乘法和大数加法)。VU9P内部的DSP信号是DSP48E2,其逻辑功能图如下:
DSP48E2核心逻辑由一个27*18的乘法器以及一个算术计算器(加减/逻辑操作)。为了防止乘法溢出,在进行大数乘法计算时,可以把DSP48E2当作17*17的模块。
为了对比FPGA和GPU的Modular Multiplication的性能,选定BLS12_381曲线。也就是说,模乘的位宽是381bit。利用FPGA的DSP的缘故,为了17bits对齐,位宽扩展为391bits(23*17bits)。
整个Pipelined Modular Multiplication的设计逻辑如下:
模乘的电路模块总共采用25个DSP,并分为两部分,一部分由23个DSP组成,实现大数乘法,另外一部分由2个DSP组成分别实现大数加/减。显然可以发现,大数乘法需要23 clocks完成,每个clock完成X*17bits。大数加和大数减的计算因为采用一个DSP,也需要23 clocks完成。这样的设计下,大数乘法的内部计算是pipeline的,大数乘法和大数加/减之间也是pipeline的。
因为模乘需要3个大数乘法和若干个大数加/减,381bits的模乘计算需要3*23=69个clocks。
在这样的FPGA设计下,可以估算出整个VU9P能提供的在BLS12_381椭圆曲线点加Throughput。一个点加(add_mix方式)大约需要12个模乘。FPGA的系统时钟为450M。
(6840/25)*(450/69)/12 = 104.3M/s
在同样的模乘/模加算法下,采用同样的点加算法,Nvidia 3090的点加Troughput(考虑到数据传输因素)超过500M/s。当然,整个计算涉及到多种算法,可能存在某些算法适合FPGA,有些算法适合GPU。采用一样的算法对比的原因,想对比FPGA和GPU的核心计算能力。
在这样的计算能力差异下,再分析一下性价比的差异:
-
Xilinx VU9P board – $8394
https://www.xilinx.com/products/boards-and-kits/vcu118.html
-
Nvidia 3090 – $1499
https://store.nvidia.com/en-us/geforce/store/?page=1&limit=9&locale=en-us&category=DESKTOP,GPU&gpu=RTX%203090,RTX%203090%20Ti
在这样的情况下,我们来看看产品的性价比:
8394*500/1499/104.3 = 26.8
也就是说,从性价比的角度看,Nvidia 3090是Xilinx VU9P的26倍。
Note:有关Xilinx VU9P的开发板,本身量比较少。能查到的公开价格也比较少,可能价格有偏差。其他FPGA芯片的性价比可以按照类似的逻辑进行计算。
基于上述的结果,总结一下GPU和FPGA在ZKP证明性能方面的比较:
Xilinx的VCK5000平台,采用VC1902芯片(7nm工艺),实现AI加速引擎。价格相对便宜:$2,745.00。
https://www.xilinx.com/products/boards-and-kits/vck5000.html
这款芯片除了可编程逻辑外(Programmable Logic),还配备了AI和DSP引擎。DSP引擎由1968个DSP58组成。AI引擎由400个AI Core组成。目前还不确定在这种芯片上的MSM/FFT的性能,不过值得期待。
总结:
越来越多的应用开始采用零知识证明技术。但ZKP算法比较多,各种项目使用不同的ZKP算法。从我们的实践工程经验来看,FPGA是个选项,但是目前GPU是个性价比高选项。FPGA偏好确定性计算,有latency以及功耗的优势。GPU可编程性高,有相对成熟的高性能计算的框架,开发迭代周期短,偏好需要throughput场景。
比推快讯
更多 >>- OpenAI 完成股份出售,估值创纪录达 5000 亿美元
- 花旗上调 2025 年末以太坊价格预测至 4,500 美元
- 花旗将比特币未来 12 个月价格目标定为 18.1 万美元
- 1inch 与 Coinbase 合作为散户用户提供无缝代币兑换服务
- Trend Researh 再次从 Aave 提出 16698 枚 ETH,价值 7338 万美元
- Tether USAT CEO:美国只用 6 个月逆转加密监管困局,创下美国立法纪录
- 欧易将上线 2ZUSDT 永续合约
- 数据:当前加密恐慌贪婪指数为 63,处于贪婪状态
- Upbit 及 Bithumb 将下架 UXLINK 现货交易
- 泰国加密货币 ETF 将推动扩大至比特币以外资产
- 瑞典议员正式提交提案拟建立国家战略比特币储备
- Tornado Cash 联创 Roman Storm 请求法官撤销定罪
- RootData:MOVE 将于一周后解锁价值约 568 万美元的代币
- 慢雾余弦:损失超 130 万美元 Pendle 大户被盗或因其创建合约允许任何人调用
- Base 协议负责人:Base9 月稳定币独立交易量达 8100 万美元,生态稳定币月度交易量达 1.5 万亿美元
- 特朗普:必须利用民主党强制美国政府关门的机会,清理冗员、浪费和欺诈行为
- Metaplanet 发布 Q3 业绩数据,BTC 季度收入达 24.38 亿日元,环比增长 115.7%
- Polymarket 即将向美国用户重新开放
- Robinhood CEO:资产代币化全球普及至少还要 10 年
- 数据:Hyperliquid 平台鲸鱼当前持仓 98.7 亿美元,多空持仓比为 0.87
- Kite AI 官方 NFTFLY THE KITE地板价升至 0.68 ETH,24 小时涨超 51%
- 赵长鹏:BNB Chain 社媒账号攻击者仅获利 1.3 万美元,安全团队仍在追踪
- James Wynn:曾在 HyperLiquid 取得成功,现将转向 Aster 再续辉煌
- Robinhood CEO:预测市场综合博彩、交易、新闻等行业特性,已成为旗下年收入超 1 亿美元的 9 大业务线之一
- 香港证监会:RWA 代币化产品暂不适合作股票交易,较传统交易并无优势
- 某做空 2.418 亿美元 BTC 巨鲸向 Hyperliquid 存入 1200 万枚 USDC 以避免被强平
- 数据:某场外交易鲸鱼过去 10 小时通过 Wintermute 售出 20,830 枚 ETH
- Tether Treasury 在以太坊链上铸造 10 亿枚 USDT
- NFT Strategy 板块持续上涨,PNKSTR 市值触及 1.4 亿美元创历史新高
- Lighter 公共主网正式上线,开启积分计划第二季
- XRP 财库公司 VivoPower 完成 1900 万美元股权融资
- Trend Research 向 Binance 转入 24,051 枚 ETH,约 1.04 亿美元
- 前 Susquehanna 高管 Bart Smith 出任 Avalanche 财库公司 CEO
- 加密友好银行 Nubank 拟申请美国银行执照
- 数据:ETH 当前全网 8 小时平均资金费率为 0.0028%
- 某波段 ETH 获利 7605 万美元巨鲸开始分批止盈,卖出 20,830 枚 ETH
- 9 月比特币链上 NFT 交易额不足 5000 万美元,创 2023 年 5 月以来最低单月交易额纪录
- Plasma 创始人:团队成员均未出售任何 XPL,3 人曾在 Blur/Blast 任职
- 特朗普提名加密支持者 Travis Hill 担任 FDIC 主席
- Politico:美国政府停摆期间每周可能对GDP造成150亿美元损失
- Sui Group Holdings 计划与 Ethena 合作推出两种稳定币
- 古尔斯比:开始更加担忧通胀走势偏差
- 美联储古尔斯比:经济基本面强劲,降息空间充足但需谨慎
- 数据:过去 1 小时 Binance 净流入 4,217.86 万 USDT
- 关键美国经济数据发布延迟,增添美联储政策不确定性
- 预计美联储今年将降息两次,2026 年再降 50 个基点
- 数据:过去 24 小时全网爆仓 5.09 亿美元,多单爆仓 1.33 亿美元,空单爆仓 3.76 亿美元
- 道琼斯指数收盘上涨 43.21 点,标普 500 和纳斯达克均上涨
- 美股收盘:三大股指小幅收涨,英特尔涨超7%
- Pump.fun推出快速入金功能,支持Apple Pay等多渠道支付
比推专栏
更多 >>观点
比推热门文章
- OpenAI 完成股份出售,估值创纪录达 5000 亿美元
- 花旗上调 2025 年末以太坊价格预测至 4,500 美元
- 花旗将比特币未来 12 个月价格目标定为 18.1 万美元
- 1inch 与 Coinbase 合作为散户用户提供无缝代币兑换服务
- Trend Researh 再次从 Aave 提出 16698 枚 ETH,价值 7338 万美元
- Tether USAT CEO:美国只用 6 个月逆转加密监管困局,创下美国立法纪录
- 欧易将上线 2ZUSDT 永续合约
- 数据:当前加密恐慌贪婪指数为 63,处于贪婪状态
- Upbit 及 Bithumb 将下架 UXLINK 现货交易
- 泰国加密货币 ETF 将推动扩大至比特币以外资产