,他还在 IC3、雅虎、贝尔实验室和 IBM 等机构担任研究员。毕业后,Leo 加入 Algorand 负责密码学研究工作。目前,他同时在罗格斯大学计算机科学系担任助理教授。联创 Bowen Huang 从耶鲁大学的博士 Quit 之后,获得了耶鲁大学的硕士学位。目前,他在 Cysic 主要负责芯片和供应链的管理。此前,他曾在中国科学院计算技术研究所担任研究工程师。基于对密码学与硬件加速的敏锐,他们在 2022 年之前就意识到 ZK 是整个区块链行业的终极扩容方案,而硬件加速是实现这一终局方案的必然技术路线。 目前,ZK 领域主要以 zk-SNARKs 与 zk-STARKs 两种证明系统为主。其中,Zcash、Scroll、Taiko、Mina、Aztec、Manta、Anoma 等均采用 zk-SNARKs,而 Starknet、StarkEx、zkSync(已过渡至 Boojum)等则采用 zk-STARKs。此外,还有以太坊历史数据协议 Axiom、ZK 技术开发商 Nil Foundation 等 ZK 项目。据 Cysic 估算,当前市场上有 50 多家市值共超千亿的头部 ZK 项目,而 ZKP 应用赛道的总估值已超 150 亿美元。 过去两年,ZK 赛道常为人所诟病的就是证明生成时间长,对资源的需求高。以 Scroll 为例,其采用 GPU 进行 ZK 证明生成至少需要 1 个小时与超过 280GB 的 RAM。这两者不仅阻碍了 ZKP 大规模采用,也延滞了以太坊的商业化进展。尽管 STARK 要比 SNARK 证明生成时间更快,但它们都需要使用硬件加速将证明速度从小时级别提升至秒级别。ZKP 的愿景是实现与以太坊同时出块,若无法突破瓶颈,Vitalik 所期待的 ZK「实时证明」将无法实现。 另一方面,尽管以太坊基金会将 ZK 作为扩容的未来,但 ZK Rollup 在以太坊 L2 领域的市场份额并不具有说服力。当前 TVL 前 5 大 L2 均采用 Optimism Rollup,ZK Rollup 市场份额仅占 8.5%,唯一一个市值超过 10 亿美元的 ZK Rollup 项目是 Starknet,而这在很大程度上也是由于基金会的生态激励与空投预期。既然 ZK 赛道估值甚高,若是硬件加速能够大部分解决当前困境,那么市场潜力可见一斑。 Cysic 野心很大,他们的终极目标是提供全套 GPU + ASIC 硬件加速解决方案,瞄准的是 ZK Rollup、zkML、ZK Bridge 等所有存在 ZK 计算场景的算力需求。作为一种过渡,过去一年 Cysic 自研了 FPGA 加速硬件,能够涵盖 Halo2、RapidSnark、Plonky2x 等多种证明系统,其通用性与灵活性前所未有,业务市场更是一片星辰大海。 ZKP 硬件要加速什么?从 ZK 证明系统说起 介绍完 Cysic 与 ZKP 硬件加速市场的潜力,我们回过头来看看 ZKP 硬件到底要加速什么。从根本上来说,硬件要加速的就是 ZK 证明计算,凡是涉及到计算,那就是在比拼算力的多寡,这也是为什么我会认为 ZKP 是在将 PoW 带回以太坊的原因。但从更微观的角度来看,ZKP 硬件究竟要加速哪方面的计算?在这里,笔者将以 zk-SNARKs 证明系统为例,说明从「算术化」(arithmetisation)到证明生成与验证的过程。 首先,用户在链上的任何交易行为都会被打包进链下的 Rollup,因此交易行为与交易量将决定电路与 ZK 证明的复杂性。 其次,当交易数据被提交后,将进入「算术化」过程。所谓「算术化」,就是将这些数据构建成 ZK 电路并转换成多项式形式的数学公式。与通常程序开发类似,ZK 证明系统也分为「前端」与「后端」。「前端」是指各类交易数据需要通过 R1CS、PLONK 等约束语言构建成向量、矩阵等电路并转换成多个多项式,通俗理解就是将电路图转化成数学公式来表达,并且可以通过数学公式来对电路进行指导,这个过程就是「算术化」的过程。如果交易越复杂、交易量越多,那么电路的规模就会越大,多项式的阶数也会越多。 在算术化的基础上,就需要构建 ZK 证明系统这个「后端」,通过它们来生成零知识证明。下图就展示了 zk-SNARKs 证明系统的构成(Justin Thaler 认为 zk-STARK 是一种 Fri-Based 的 zk-SNARK),包括 PIOP 与 PSC 两大部分。流行的 PIOP 有 PLONK、GKR,流行的 PSC(多项式承诺方案)有 FRI、KZG。通常 PLONK + IPA 可构建 Zcash 版本的 Halo2 证明系统,PLONK + KZG 可构成 PSE/Scroll 版本的 Halo2,PLONK + FRI 可构成 Plonky2。目前的 ZK 证明系统主要包括基于 KZG 的 Halo2、Groth 16 等等。 以 Groth16 为例,我们可以将计算过程拍平并通过 R1CS 约束形式表达成 C-SAT(电路可满足性)问题,然后将 C-SAT 问题归约为 QAP 可满足性问题 ,最终会得到一系列公共的多项式 Ui(x)、Vi(x)、Wi(x)、T(x) 与 向量 a,其中向量 a 包含了公共输入(Public Inputs)与秘密(witness),它们之间满足下图所示的关系。对于 QAP 可满足问题,给出 a 进行 QAP 的验证很简单,但是反向通过公共多项式求解 a 则会非常困难,那么我们就将证明计算过程的真实性与完整性转化为证明 Prover 拥有 a(i) 这一问题中来了,这一步对 ZKP 后端的构造尤为重要。 至于 ZKP 的后端,可分为 Setup、Prover 与 Verifier 三个阶段,其中每个阶段会用到一些参数。我们需要将算术化之后的多项式与一次性秘密随机数 R(「可信设置」概念的来源)同时输入到 Setup 中,在设置后分别通过 Sp、Sv 参数允许 Prover 和 Verifier 生成、验证证明。其间,Prover 需要公共输入与秘密执行计算、生成证明;Verifier 可通过证明、公共输入进行验证。而在这个过程中,Verifier 不会知道秘密是什么。 在 Prover 生成证明的过程中,需要的是大量的计算。那么如何让证明生成的计算更快?这就是硬件的用武之地。在当前情况下,唯一的方案就是用硬件来提高计算能力,算力越高,耗时越短。 不同的证明系统有不同的计算量较大的密码学原语,在基于 PLONK + KZG 证明系统中,耗时最多的是 MSM(Multi-Scalar Multiplication)和 NTT(Number Theoretic Transform)两种计算类型。在 zk-STARK 中,主要计算瓶颈则是 NTT 与 Merkle Hash。MSM 主要处理与椭圆曲线相关的计算,NTT 是作用在有限域上的 FFT(快速傅立叶变换),可以理解为 FTT 的变体与优化,用于处理与多项式相关的计算。目前几乎所有主流 ZK 协议都在大量使用这两种计算,它们合起来要占证明生成时间的 80-95%。通常来说,MSM 计算任务会占全部计算任务的 60-70%,NTT 会占 25%。当然,在不同的实现中二者的比例会随之不同。既可以针对性地根据计算任务比例对 MSM 或 NTT 进行单一加速,也可以对二者同时进行加速。 过渡的 FPGA,终点的 ZK ASIC 辩证地看,计算任务的工作量大也意味着这是一些相对简单的流水线操作,只要算力够强就行。由于 ZK 证明计算的算法是确定性的,只需要对证明结果的生成进行重复计算,因此针对特定操作的专用硬件架构实现比软件实现更具优势。如果能够实现并行化计算,那么计算难度将大大降低。巧的是,MSM 与 NTT 都可通过高性能硬件加速,并且支持并行化计算。 Cysic 技术进展与路线图 如前文所述,Cysic 的终极目标是做 ZK ASIC 加速,提供包括 MSM 和 NTT 计算在内的全套 ASIC 硬件加速解决方案。但正如 Leo Fan 所言,「在做 ASIC 之前,是需要在 FPGA 上面做很多测试和 prototyping 的事情」。 过去一年,Cysic 已经完成第一阶段的 POC 设计工作,开发了基于 FPGA 的 MSM、NTT、Poseidon Merkle Tree 等计算加速器,以及覆盖全工作流的端到端的 ZK 硬件加速方案。 Cysic FPGA 原型机(组装中的状态) 从最新公布的数据来看,Cysic 的 SolarMSM 可以在 0.195 秒内完成 2³⁰ 规模的 MSM 计算,是目前所有公开的 FPGA-MSM 硬件加速结果中性能最高的方案。SolarNTT 则可以在 0.218 秒内完成 2³⁰ 规模的 NTT 计算。同时,Cysic 当前的 FPGA 加速方案已经应用到 Scroll 的 ZK 计算中,对于 2²² 规模的 MSM、NTT 计算均可在 1 毫秒左右(0.001 秒)完成。 GPU、FPGA 与 ASIC 之比较 至于为什么终极目标与第二阶段要研发 ASIC,我们要回到加速硬件的比较中来考察。硬件加速的优点在于降低功耗、减少延迟、提高并行性、增加吞吐量,可以更好地利用集成电路上的面积与功能组件。通常来说,由于 CPU 其计算时间长、能耗高,基本已不被纳入采用范畴。市面上加速硬件主要为 GPU、FPGA 和 ASIC 三种,它们在通用性、效率方面各有侧重。 目前,几乎所有 ZK 项目都在使用 GPU 进行硬件加速,因为 GPU 已经足够普及,使得它成为了在专用硬件生产出来之前唯一的硬件加速载体。对 ZK 硬件加速厂商而言,GPU 是当前最经济和可配置的硬件选择。通过例如 CUDA SDK 这种软件层面的支持,GPU 的多核结构也适合并行化例如 MSM 类的计算。然而,GPU 存在一些局限,譬如使用 3080、3090、4090 这样的显卡极易受限于硬件平台,例如主板带宽等。 与 GPU 一样,FPGA 也是可编程的,在运行时可重新配置,能够根据系统规格和特定应用重复用于不同的算法,通用性与灵活性更高。同时,FPGA 也更适合 FFT、NTT 计算类型。说到底,在 FPGA 硬件研发出来之后,它也变成了一种软件游戏。此外,虽然单个 FPGA 打不过 GPU,但是很多个 FPGA 连在一起,性能就比 GPU 高出很多倍。同时,顶级 FPGA 要比顶级 GPU 的硬件成本便宜 3 倍。在能耗比上,由于 GPU 需连接主机设备,而主机设备耗电严重,因此 FPGA 的能效要高上 10 倍。但是,相比于 GPU,FPGA 芯片的获取成本,和供应链的配套需求相对较高。 ASIC 是一种为了满足某种特定需求而定制的专用芯片,其性能之高、算力之强已经被包括 Cysic 在内的 ZK 硬件加速厂商视为终极解决方案。但 ASIC 的业务逻辑是「一次写入」,不可编程,只能针对特定的单一任务,无法并行处理多个 ZK 算法。ASIC 在性能与能耗上都优于 GPU 与 FPGA,但需要的生产周期较长。此外,作为一个资本密集型游戏,ASIC 的生产成本也要更高。 来源:Amber Group 综合比较下来,我们也就能够理解为什么 Cysic 首先选择了自研 FPGA 加速硬件。因为在 ASIC 尚不具备通用性、成本过高、上市时间长的情况下,FPGA 是过渡时期抢占市场的最佳方案。具体来说,Cysic 的 FPGA 硬件能够适应 Halo2、RapidSnark、Plonky2x 等多种 ZK 证明系统,可以执行当今所有主流的 ZK 算法(指的是 ZK 证明生成中的计算操作)。换言之,凡是存在 ZK 计算场景的算力需求,FPGA 都能够适应,包括 ZK Rollup、ZKML、ZK Bridge 等等。同时,ZK 证明生成不仅对计算要求很高,而且对内存要求同样很高。今天 Scroll zkEVM 电路的证明生成需要至少 280 GB 的 RAM,面对这种需求,FPGA 则可以不断堆加,进行内存扩容。 自研 FPGA 也不代表 Cysic 放弃了 GPU 与 ASIC。Cysic 也在研发基于 GPU 的硬件加速方案,试图提供更灵活的 ZK、AI 计算的加速服务。目前,Cysic GPU 算力网络已经链接了数十万张高阶 3090/4090 算力显卡。 Cysic 显卡与机房 而他们的内部数据已经显示,Cysic CUDA SDK 比最新的开源框架提速了 50%-80% 以上,并且使用该 GPU SDK 为多个顶级 ZK 项目方提供证明生成服务。同时,Cysic 关于 ASIC 的设计和流片工作也在进行之中。 ZKP + DePIN:Cysic Network 的星辰大海 如果仅仅只是 ZKP 加速硬件,那么 Cysic 似乎无需过多笔墨点缀。但在 Helium Mobile 疯狂在前、io.net 爆火在后的 2024,DePIN 的出现也给了 Cysic 更多的想象空间。 Cysic 真正要做的是一个基于 ZKP 硬件加速的 Prover Network。它不仅要将 FPGA、GPU、ASIC 等自研硬件接入 Prover Network,还将允许社区用户提供各种类型的算力,通过构建一个去中心化算力网络给 ZK 证明生成计算增加经济激励与治理。 可以说,通过 Prover Network,Cysic 将一个面向 B 端的加速服务彻底向 C 端用户开放,成为 ZK 项目方、算力提供商与社区验证者之间的桥梁,这在当前 ZKP 硬件加速市场上绝无仅有。在此之前,普通用户不仅难以理解 ZKP,也很难说购买专用硬件给 ZKP 加速。但 Cysic 网络不再需要用户掌握专业知识,由于其通用性,用户只需提供算力即可进入 ZKP 算力网络。试想一下,整个网络中的用户越多,算力越多,ZK 证明速度也会越快,秒级别的「实时证明」也将指日可待。 事实上,以太坊在 The Merge 合并后,原先的 PoW 矿工手上留有大量闲置的 GPU,对 Prover Network 来说这个存量市场可太宝贵了。不过,大多数人可能并没有相应的硬件参与 DePIN 网络。怎么办?如何才能引入更多的社区用户,做大增量市场?Cysic 做了一些 make sense 的事情,他们最近设计了两款 ZK DePIN 芯片 / 设备,分别是 ZK Air 和 ZK Pro,预计将于 2025 年上市。 如上图所示,ZK Air 的大小和充电宝 / 笔记本电脑电源接近。这是一种轻量级便携式的 ZK DePIN 设备,其算力大于顶级消费级显卡,用户可通过 Type-C 将其连接到笔记本电脑、iPad 甚至手机上,通过 Prover Network 为小规模 ZKP 提供加速服务,并获得网络奖励。同时,ZK Air 也可直接连接电脑在本地生成及时的 ZK 证明。ZK Pro 则类似于传统矿机,主要服务于专有公司,适用于 zkRollup、zkML 等大型 ZK 项目。对绝大多数用户来说,ZK Air 可能是一个更值得期待的产品。 ZKP 硬件加速与 DePIN 天然吻合。与 io.net 去中心化 GPU 网络面向 AI 与 ML 不同,Cysic 笃定 ZK 是区块链行业的未来,凭借自研硬件对不同 ZK 算法的适应能够接纳任何存在 ZK 计算场景的算力需求,加之背靠着超过 150 亿美元估值的 ZK 市场,未来的增长潜力巨大。 肖风曾说,「区块链与生俱来就是建立在 DePIN 之上,比特币硬件挖矿是一个初级版的 DePIN」。ZKP 硬件加速让我想起了比特币 PoW 机制,但有了 Prover Network,Cysic 才算是真正构建起一个属于 ZKP 的算力网络。正如 PoW 无需许可,DePIN 原语下的 ZKP 挖矿也将真正变得无需许可。不过,ZKP 挖矿与 PoW 挖矿还是有所不同,在传统 PoW 机制中,算力越高越快的矿工才能获得区块奖励,而其他人的工作量证明将作废。Cysic 的 Prover Network 不存在无效工作量一说,用户始终都可根据算力贡献获得激励。 目前,用户可参与 Cysic 在 Galxe 上的活动并获取早期徽章,参与 NFT 铸造,以及将于今年 5 至 6 月上线的测试网。据 Cysic 透露,部分早期参与者可获得 NFT 激励。此外,Cysic 还计划于今年第三、第四季度进行 TGE。 参考文献: Georgios Konstantopoulos, Hardware Acceleration for Zero Knowledge Proofs, Paradigm, April 13, 2022. Elena Burger, Decentralized Speed: Advances in Zero Knowledge Proofs, a16z crypto, April 15, 2022. Amber Group, Need for Speed: Zero Knowledge, Sep 5, 2022. IOSG:《为什么我们看好零知识证明硬件加速》,Nov, 2022. ABCDE:为什么我们要投资 Cysic,Feb 18, 2023. msfew, Criticism on ZK, April 20, 2023. Trace, Accelerating Zero-Knowledge Proofs, Figment Capital, April 25, 2023. Luke Pearson and the Cysic team, ZK Hardware Acceleration: The Past, the Present and the Future, April 27, 2023. ZPrize, ZPRIZE II SPOTLIGHT: INTRODUCING THE ARCHITECTS: LEO FAN, CYSIC, Oct 10, 2023. Loopy Lu:《Vitalik 为什么看好 ZK 硬件加速?》,BeWater, April 12, 2024. Cysic, New Paradigm in Designing ZK-ASICs, the zkVM way, April 9, 2024. Cysic:《迈向以太坊的可验证未来:Cysic 助力构建可信 ZK 计算网络》,2024. * 本文蒙 ZK 研究员 Miles、ZK 开发者 Paul 帮助与指导,特此感谢! 来源:金色财经lg...