行业发展 14 年,从最初的炒作逐渐转为实际应用。区块链数据分析可以从链上宏观、项目协议、地址三个层面进行。链上宏观可以比较不同链的指标。项目协议需要深入理解业务逻辑。地址分析可以进行多维度的标签标注。未来值得关注的几个方向是比特币 Layer2 扩容方案、以太坊质押数据和账户抽象多签地址。总体来说,区块链数据市场发展空间巨大。
如果把 Bitcoin 的正式部署作为行业诞生的元年,随着区块链行业长达 14 年的发展历程,从最初单纯的炒作和投机买卖,逐渐演变为具有实际应用场景的技术理念,特别是 Decentralized finance (DeFi) 理念被用户所认可和接受之后,使得价值回归到链上,链上的数据因此也逐渐成为投资者和开发者关注的焦点。
《泰晤士报》2009 年 1 月 3 日的头版文章标题 - 财政大臣站在第二轮救助银行的边缘
尽管与当前互联网中的大数据体量相比,区块链的数据规模还比较有限,从原始数据上看也较为单一,但是在实际分析和解读过程中,由于数据输入端相对自由且包含大量不易理解的字节码,许多分析师和开发者往往需要花费大量时间去解析和使用。从工作经验来看,笔者认为可以从业务层面对区块链数据进行分类,以便更好地理解:
链上宏观
项目协议
地址分析
区块链网络从宏观到微观可以分为三个层面,网络层面由多个协议组成,每个协议又由多个地址的活动构成。目前针对消费者的区块链数据分析产品,大多深耕在这三个层面的某一具体场景。接下来笔者将就每个层面所对应的业务逻辑和应用形态进行阐述。
从网络层级来看,可以进一步细分为:
Bitcoin (UTXO 模型 )
Ethereum 为主的 Ethereum Virtual Machine (EVM)
其他非 EVM 架构的公有链 ( 例如以 Rust 语言开发的 Solana、模块化公链 Cosmos 生态、继承 Libra 的 Move 语言体系等 )。
通常作为对比,我们可以考察用户数、交易数、交易价值和交易费用这四个指标,并在此基础上进行二次分析,举几个简单的例子:
根据部署合约的用户数和交易数,评估开发者在该网络上的活跃程度;
通过交易的时间间隔计算出每秒交易数 (TPS),以判断网络处理交易的性能;
计算交易金额和交易数的比值,得到平均每笔交易的金额,过多低价值交易实际上是对网络的负担;
观察一段时间内的交易费用总额,评估网络的火爆程度,与交易数不同,交易费用的低谷代表用户交易的急迫性较低。
数据来源:Dune
对数据使用者来说,网络层面的数据可以在众多公链中进行选择时提供辅助,根据自身情况选择更合适的公链进行开发或使用,并抓住最佳时机参与其中。
对项目协议的分类就非常广泛,包含 DeFi、Game、Non-Fungible Token (NFT)、Decentralized Identity (DID) 等等,新的类别也在不断出现,所以在这里不具体展开某一类,而是谈谈分析项目协议数据过程中的几点经验:
通常一个完整的协议会由多个业务合约组成,大部分需要深入阅读文档 ( 文档清晰并及时更新很重要 ) 并且结合自己的使用才能更好地理解项目。
同一领域的产品业务逻辑会趋同,比如所有 DEX 的业务核心都是交易和流动性,理解头部产品后再解析整个领域的其他项目会相对容易。或从项目方自身考虑,他们对自己的数据比较熟悉,但总希望了解更多竞争对手和行业现状,这时垂直领域的数据就很有价值。
当前大多项目包含许多链下数据,如团队和融资信息、社交媒体数据、用户网站操作数据、内部订单信息等,有的是公开的,有的是非公开的,这在分析项目时会有局限。但随着行业发展,更多业务数据会逐步上链,因为用户使用区块链的目的之一就是更加公开透明。
数据来源:Dune
一个典型例子是在 DeFi Summer 中,SushiSwap 向 UniSwap 发起挑战,两者的链上交易额和交易数曾一度相近,但深入分析可以发现,UniSwap 的独立用户数远高于 SushiSwap,即 SushiSwap 的大部分交易和流动性来自较少的用户,这里的原因是 Sushi Token 的发行机制刺激了资金流入,但后续因为经济模型无法持续,资金又回流到了 Uniswap。类似情况当前也反映在 OpenSea 和 Blur 的数据上,前者散户交易居多,后者专业用户交易居多。(注意!这里没有对项目进行价值判断,而是说明从数据中可以反映出用户行为差异。)
数据来源:Dune
从较为流行的 EVM 架构公链来看,地址目前分为两种类型,Externally Owned Accounts (EOA) 和 Contact Account (CA)。针对地址的数据产品现有的业务形态,笔者认为主要有:
资产看板 ( 多用于钱包展示资产情况 )
交易记录 ( 多用于显示徽章和奖励证明,如空投或 DID)
标签系统 ( 多维度标签进行推荐或风控 )
数据来源:DeBank
这里主要谈谈标签这个维度。当前在消费端数据产品中标签非常关键,例如对用户来说,0xd8dA6BF26964aF9D7eEd9e03E53415D37aA96045 一看无法理解其含义,但显示为 vitalik.eth (Ethereum 创始人 ) 则可以立即识别。当然这只是众多标签维度中的一个。笔者归纳了地址标签的几个维度:
实体标签 ( 表示何人 )
行为标签 ( 做过什么 )
状态标签 ( 当前或过去状态 )
预测标签 ( 未来可能做什么 )
其他标签 ( 用户定义及难分类标签 )
数据来源:OKLink
目前多数数据产品只是简单展示实体标签,然后通过行为和状态标签显示资金流向,深度挖掘还不够,比如交易发起时显示对手方地址年龄、资产和交易对象数,提示用户注意风险;或者根据用户过往交易行为推荐类似的项目,比如参与多个 NFT 的铸造的地址可以向其推荐今天最多地址正在铸造什么 NFT,这样可以节省用户搜索时间。丰富的数据支持能为产品提供更强大的算法服务。
最后,笔者想谈谈未来 1-2 年内,在业务数据方面个人比较关注的三个方向:
Bitcoin Layer 2 ( 包括其他扩容方案产生的数据 )
Ethereum Staking (Beacon Chain 数据 )
Account Abstraction ( 基于 ERC-4337 提案的账户抽象和多签地址数据 )
对于 Ordinals 这种为 Bitcoin 网络最小单位「sat」编配编号的方案, Bitcoin 社区观点不一,但其火热为 Bitcoin 生态增加了想象空间和矿工收入 ( 交易费用 )。从区块空间和交易数量来看,Ordinals 一度使交易费超过了区块收入,但 Bitcoin 网络显然无法承载更多用户完成资产交易。即使 Bitcoin 的点对点支付故事已被数字黄金共识所取代,随着区块奖励减半, Bitcoin 网络算力也将面临巨大挑战。收入减少且竞争加剧必然会淘汰一部分算力。当区块奖励几乎可以忽略时,交易费将成为矿工的主要收入来源。如果网络交易量和费用没有稳步增长,投射到现实就是矿工收入不稳,这会影响网络的多样性和鲁棒性。在这种情况下,未来的可信扩容就显得尤为重要,目前得到社区比较多共识认可的是 Lightning Network 闪电网络的方案。
作为整个 Ethereum 生态最底层的价值存储,Beacon Chain 的数据可谓是承载了最多资金的数据业务之一,但由于共识层和执行层结构不同,现有数据平台尚未很好呈现两者的资金流动关系,当前 Ethereum 的质押率在 20% 左右,这在 POS 共识机制中是一个相对较低的比率,特别是自从上海升级开放质押提款之后,质押的净流入量是在缓步提升的,所以笔者认为这部分的市场有望长期吸纳沉淀资金,且发展空间巨大。
数据来源:beaconcha.in
账户抽象 (Account Abstraction)
在当前数据分析视角下,大多数项目协议只把 EOA 地址作为用户账户,但随着资产安全和使用门槛,可编程账户被提出进行抽象,从业务角度来看,CA 作为用户账户后分析的逻辑产生了一些变化,CA 在 EVM 中无法主动发起交易,那么就需要有一个 EOA 作为发起地址调用 CA 再去调用别的 CA,这个 EOA 可以是不同的地址,也可以不是 CA 的多签地址之一,对于这些交易,分析的逻辑就会发生变化。当然目前 ERC-4337 还在草稿之中,所以大部分开发者仅仅是在文章中和会议中听过,并没有真正开始使用它,在链上数据业务中这也是一个颇为早期的垂直赛道。
数据来源:Dune
最后,我想打一个不是很严谨的比喻,如果一个行业的数据市场最终会占到这个行业总规模的 8%,那么当前 1 trillion 市值(我们在 2020 年年初到 2021 年年末两年整的时间经历了从低谷 200 billion 到 2 trillion 的 10 倍增幅)的加密行业大约可以容纳 80 billion,这在未来还有非常大的用户和资金增长空间,数据赛道目前仅完成了数据存储的去中心化,数据计算和数据验证还有数据处理等等很多阶段需要更多的创意。
来源:金色财经