作者:Saurabh Deshpande等,Decentralised.co研究员;翻译:金色财经xiaozou
所有生物都会留下一些记录。动物通过追踪季节来了解何时狩猎。啮齿动物和鸟类将食物储存在独特的地方。当他们在几个月后访问它以维持生计时,他们需要记住它们存储在哪里。狼在领地周围留下标记,示意其他动物不要靠近。甚至树木也会记录时间。每年,树干上都会形成一个环。人们可以根据年轮的数量来估计一棵树的年龄。
尽管树木和动物能够记录时间,但它们无法检索或讲述过去。他们无权访问内存。这就是人类记录保存的不同之处。由于我们的沟通能力,我们知道美索不达米亚的苏美尔人(公元前3400年)和古埃及人(公元前3200年)使用楔形文字和象形文字来记录信息。
当知识可以在不需要来源实际参与的情况下传递时,人类就进化了。在柏拉图或苏格拉底去世很久之后,我们仍然阅读并欣赏他们的作品,因为我们有办法存储他们的教义。写作是最初的 AR 平台。
(来自伊朗的信件记录了谷物的情况。)
写作可以让事情充满想象,数据帮助保持事情的客观性。它减少了个人将事物存储在记忆中的要求。这就是为什么一些最古老的人类文本涉及债务、收入或贸易记录的部分原因。
在后工业时代,企业通过将销售记录数字化来建立竞争护城河,以加强其市场地位。其中一个例子是一家名为 Asian Paints 的印度公司。他们的涂料可能不是市场上最好的,但他们控制着印度80亿美元涂料行业50%以上的市场份额。
为什么?简单的答案是,它是一个家喻户晓的品牌,而且该公司具有规模经济。但他们如何实现这一目标的?根源在于数据。他们在数据收集和处理方面投入巨资,以优化供应链。
Asian Paints 股票在过去 30 年中的复合年增长率高达 25%。支持这一增长的是 20 世纪 70 年代对大型计算机的投资。他们的设备比当时印度最好的研究机构使用的设备更强大。它每小时收集有关印度各地销售的油漆颜色和数量的数据。这使得Asian Paints 公司能够建立一个模型,以 98% 的准确率预测整个印度的涂料需求。
这种预测能力使Asian Paints 公司能够获得最大价值,因为它可以大大减少补货时间。当时,销售油漆等商品的标准是将其出售给批发商,然后批发商将其交给经销商,经销商再将其出售给经销商。经销商将直接与消费者互动。供应链之所以如此复杂,是因为各方都拥有资产库存并控制着涂料供需数据。
Asian Paints创始人Choksey先生,通过研究最终用户的消费模式并减少对中间商的依赖,将批发商和分销商从供应链中剔除。通过消除中间商,Asian Paints获得了 97% 的 MRP(经销商获得 3%) ,而竞争对手则只能获得 60%。
(电报可提取价值将是通过电报传送的领先的行情显示系统。)
向数字化的转变并非一蹴而就。数据收集之所以变得有趣,部分原因在于金融的发展以及数据之间越来越紧密的相互联系。例如,在20世纪后期,股票市场数据是借由像上面这样的设备通过电报传递的。早在1835年,交易员们就已经训练鸽子携带纸片传递信息了,纸上面描述了欧洲发生的事情。载着货物的轮船驶离陆地不到50英里时,鸽子就会带着信息飞到指定的地点。交易员常常为每提前一小时获悉消息而付费高达500美元。
到1867年,交易员们开始竞相优化电报的信息传递速度。一位名叫E. A . Calahan的西联汇款员工向纽约证券交易所支付了20多万美元,以获得让交易大厅的员工向其客户传递股票行情信息的能力。年轻的科学家托马斯·阿尔瓦·爱迪生(Thomas Alva Edison)就是努力优化这个系统的若干人之一。一个世纪后,像Bloomberg terminal(彭博终端)这样的工具可以指数级提升任何一天所传递的金融数据的速度和数量。
数据就像原油一样,必须经过若干步骤的提炼才能被使用。了解Bloomberg是如何发展的,有助于了解整个数据领域是如何演变的,以及具体的发展过程。Bloomberg并不是第一个尝试利用技术改善交易和报告机制的公司。纳斯达克(NASDAQ)使用Bunker Ramo(邦克拉莫)终端发布信息并下达买卖指令。然而,依赖于以前的电话通信网络意味着这种模式的扩展将始终具有挑战性。
(图片来源:纳斯达克——自动化场外交易的演变)
1981年,投资银行所罗门兄弟(Solomon Brothers)的合伙人迈克尔•布隆伯格(Michael Bloomberg)在菲布罗公司(Phibro Corporation)收购该银行时,其股票以1000万美元的价格被收购。他意识到,随着从纽约到日本的金融市场的日益电子化,投资者愿意为简化的金融信息付费。他创办了一家名为创新市场系统(Innovative Market System)的数据服务公司,该公司于1986年更名为Bloomberg。
在互联网普及之前,人们使用The Chiclet访问彭博终端。具体是通过一根特殊电缆连接到Bloomberg控制器,该电缆通过专用电话线连接到本地集线器。Bluumberg通过数据合作伙伴、新闻机构和新闻稿、以及手动数据输入和基于手机的数据收集等专有方法进行数据收集。
有了互联网后,信息的闸门便打开了。如今,Bloomberg几乎是实时地获取、处理和传递2000亿条金融信息。这大约相当于每秒2300万个数据点。Bloomberg提供的信息有些是公开的。公司财务报表、股票和债券价格等数据在公共论坛上就可看到。
但是,如果你是一名石油和天然气分析师,想要了解原油集装箱的动态情况呢?如果你不订阅Bloomberg这样的数据源,你就不可能实时获得这些信息。互联网上的数据并非全部都是免费的。
当涉及到Web2数据时,个人通常会面临两个限制:访问许可和处理大量数据的高门槛。多年来,像Bloomberg这样的提供商已经建立了足够强大的网络效应,可以通过其分支机构获取数据,这是分析师或投资者无法实现的。
向Bloomberg支付2万美元的年订阅费,要比尝试从可能各有不同定价的各种数据平台获取数据要好得多。即使你已经非常努力地去获取数据,但如果没有大量的基础设施支出,你也无法实时地进行数据处理和分析。在零售端,那些最终得以发展壮大的平台,有很多都是数据匹配引擎。
可以这样想:Google(搜索引擎)是一家数据公司,它为企业提供用户访问权限,以换取广告收入。当一家餐厅或一篇时事通讯希望以在谷歌上搜索信息的用户为目标用户时,他们会匹配类似信息的供求关系。例如,搜索Web3时事通讯相关信息的人,寻找的正是我们,而我们也正在寻找那个人。
谷歌凭借其运作的规模经济建立了垄断地位。他们的用户数量以及用户每天的查询数量仍然是无与伦比的。谷歌通过推出一个没有广告的搜索引擎建立了自己的地位,当时有广告才是常态,然后通过收购YouTube和Android,最终通过向同等地位的苹果等付费,使谷歌成为默认搜索引擎。仅苹果一家,谷歌每年就要支付200亿美元,以维持其Safari默认搜索引擎的地位。
谷歌之所以支付这么高的溢价,是因为从本质上讲,它提供的是一个匹配引擎。匹配引擎将有需求的用户与提供产品的企业联系起来。大多数网络垄断的核心都是匹配引擎。亚马逊将卖家和买家匹配起来。Instagram将观众与创作者匹配起来。这些匹配引擎之所以有效,是因为基于这些产品的交互留下了丰富的线索,可以从中形成背景环境。
本·埃文斯(Ben Evans)在2022年写过一句名言:没有数据这回事。我的内容、食物或旅行偏好等信息对第三方来说没有多大价值。只有当这些信息被聚合在一起,或融入背景环境时,才变得有价值——无论是对商业还是对研究来说,都如此。
所以,可以凭借我在周五晚上吃咖喱饭的偏好信息,在我购买咖喱饭的几率最高的时候向我宣传咖喱饭外卖。总的来说,将我的购买概率与同一地区的其他人进行比较,有助于更好地锁定用户。
数据要么需要大规模(大量),要么需要背景环境才有价值。Web3和Web2产品在历来的不同之处在于它们留下的痕迹。只有亚马逊知道一周内Xbox游戏机的销量。但是你可以看到交易员任何一天在OpenSea上NFT的买卖模式,这就是因为每一笔交易都会留下公开痕迹。
Web3数据产品使用这些轨迹来构建背景环境。
像以太坊和比特币这样的区块链分别每12秒和大约10分钟产生一个区块。每个区块都包含改变区块链状态的交易。像Etherscan这样的区块浏览器捕获与所有交易相关的数据。例如,如果你打开Etherscan并看到一个区块,你可能看到如下图像。
(区块链上的交易具有丰富的背景信息。像Arkham和Nansen这样的产品是研究人员用来了解交易细节的解释引擎。)
你可以查看自以太坊启动以来的所有区块。但是你能用这些信息做什么呢?几乎没什么用。因此,你需要一种在多个数据表中捕获有用数据的方法。例如,每当在一个区块中调用市场的NFT合约时,与该交易相关的数据应附加到NFT相关的数据表中,或者当调用Uniswap合约时,相关数据应存储在DEX相关的数据表中。(Dune提供此项服务。)
如果不付出重大的基础设施成本,你就无法分析原始数据。所以,尽管数据是免费的,你还是会遇到相同的问题。作为投资者或dApp建设者,你将依赖外部数据。但是你的核心功能与收集和管理数据无关。将资源花费在必要但非核心的活动上并不是每个组织都能享受的奢侈。
对于数据产品来说,使产品独一无二的是围绕数据的背景环境。Bloomberg运用其对金融的理解,将数据转换为投资者和交易员可以轻松使用的形式。Similarweb等网站或Newzoo等研究公司利用自己的核心竞争力,将社交或游戏相关背景应用到所追踪的数据中。
区块链原生数据产品的与众不同之处在于,它们通过回答与特定用户群体相关的问题的查询提供用户背景信息。例如:TokenTerminal计算协议的经济基础;Nansen帮助市场参与者标记和理解资产动态;Parsec查询链上数据,以帮助交易员更好地分析DeFi头寸。
所有这些产品都基于一种公共产品:链上数据。不同之处在于这些产品呈现数据的方式,不同的数据呈现方式会让它们吸引不同的受众。
在我们的行业中,产品类别基于哪些数据在链上,哪些信息来自链下来划分的。(有些人经常两者都用。)数据提供商使用它们的背景过滤器来创建产品。正如Web2数据有其生态位市场一样,Web3数据公司已经或正在逐步利用其核心竞争力建立护城河。
因此,创始人的背景往往决定了所发布产品的性质。如果一个核心团队在进入加密市场之前已经在资本市场上浸泡了大量时间,他们的产品往往会模仿Bloomberg,而加密原生产品则看起来像Nansen。不同的产品满足不同的需求,即使对同一数据的查询也是如此。
例如,交易所通常在固定间隔后删掉数据。他们不从事数据业务,存储旧数据需要额外的服务器和管理。一些数据提供商,如Kaiko和Amberdata,维护交易所的历史订单数据。这些数据使交易员和投资者能够建立模型来检验自己的假设。但是,如果你想了解哪些DeFi合约有大量的ETH或稳定币流入,或者你想分析具体地址或实体的链上行为,那么你将需要用到Nansen或Arkham的产品。
(市场图并不能代表所有类别的所有玩家。)
了解产品市场定位的一种方法是通过加密消费者维度。加密消费者角色可以分为以下四大类。
在熊市期间,大多数通过加密数据产品流动的资金来自于金融机构。这些金融机构都是大客户,销售周期更长,数据需求更加复杂。了解产品定位是否面向金融机构的一种方法是,客户是否必须经过销售电话来确定成本。在Web2世界里,你不知道PitchBook或CB Insights的成本。在加密世界,你不知道像Chainalysis这样的产品要花多少钱。
这种销售过程的部分原因是面向这一大型消费群体的数据产品为客户提供了亲身经历的高水平服务。这些客户通常选择高粒度和高度频繁的数据。它们需要数据不仅用于交易前的决策,还用于交易后的使用,以满足合规和税收要求。
例如,他们需要产品能够告诉他们投资组合的历史价值,帮助他们进行税收计算,等等。Amberdata、Kaiko、CoinMetrics、CryptoCompare等公司为这些金融机构客户提供服务,在某种程度上说,还有Nansen。
根据我的经验,只有拥有大型融资机构或团队工作背景的创始人,才能打开数据的机构市场。这里的准入门槛相对较高,任何企业级产品都是如此。
对Web3的可组合性特性,我们并不陌生。这意味着Web3应用程序可以相互依赖。它们可能需要彼此之间能够提供数据。因此,它们需要不断地从对方那里读取数据。例如,像Yearn Finance这样的平台需要读取来自Aave和Compound的数据,像Tensor这样的NFT聚合器需要读取来自Magic Eden和其他市场的数据。
但这些数据是存储在以太坊和Solana等区块链上的。以太坊每12秒创建一个区块,而Solana每400毫秒就可以创建一个区块。将区块链数据排序到数据表中并存储数据以供快速访问是一项非常重要的工作。这就是Covalent、Graph、Chainlink和Powerloom等索引器的用武之处。它们确保原始区块链数据以所需的格式存储,以便开发人员通过简单的API调用就可获取数据。
该消费者角色中有一个新兴部分涉及到理解用户行为的工具。例如,ARCx支持开发人员使用链上数据(如钱包地址)映射链下数据(如浏览器行为),以捕获与dApp交互的用户信息。这是一个相对较小但高度相关的生态位市场,可以帮助开发者确定谁是他们的用户。
加密数据产品通常通过与研究人员和出版物合作来分销。例如,Bloomberg经常引用CCData的数据。研究人员被鼓励使用数据产品,因为它们有助于在收集、清理或整理数据方面节省时间和精力。像Dune这样的产品已经通过建立一个分析师社区建立了护城河,这些分析师相互竞争,以获取更高的排名。
The Block和Delphi等出版物展示了使用第三方提供商数据构建的仪表板。在Decentralised.co,我们完全依赖外部数据提供商,因为使用外部资源收集数据,可以帮助团队高效运作。
迎合这一消费群体的挑战在于,不具规模的研究人员可能缺少所需的预算来证实:花费大量资源来获得可能只与一小撮人相关的见解是合理的。相反,公司也很有动力花费精力和资源与《金融时报》等重要出版物合作,因为这样的合作有助于分销。
面向散户投资者的产品通常具有较低的数据粒度和频率。但它们却是高利润的生态位市场,因为这些产品具有规模经济。在一个不存在用户流失的世界里,1万名用户每人支付100美元就相当于100万美元的ARR业务。说起来容易做起来难,但这些经济特性解释了为什么会有这么多面向散户的加密数据产品。
大量面向散户的产品都是免费的,或有广告支持。例如,像DefiLlama这样的免费资源不会告诉你如何通过不同的交易所(CEX和DEX)路由订单以避免滑点,因为它没有订单簿快照,但它却展示了有关代币解锁或收益解锁的信息。
这部分消费者的一个变化是传递媒介打开新市场类别的方式——例如,Cielo通过Telegram以通知的形式传递数据。通过以一种易于使用的方式为不愿处理桌面界面的消费者群体传递信息,它已经发展为超过40,000名用户。如果做法得当,即使是分销媒介也可以成为早期创业公司的差异化因素。甚至在数据方面。
虽然在某些点上分类比较模糊,但数据公司可以分为B2B或B2C方向。
像Amberdata和Kaiko这样的公司都有迎合高水平参与者的产品。这些产品粒度更细(可用的数据细节)、频繁更高(例如,tick-by-tick及实时订单簿数据),它们满足诸如构建和测试模型、交易前分析、交易后报告、税收和合规等需求。数据以支持客户进行专有分析并根据自己的需求构建可视化的方式提供。这些公司的产品通常都是付费产品。
上图在两个轴向上显示了不同的产品——深度和粒度与产品价格。请注意,这些显示并不绝对精确。有些点可能有误。但中心想法是建立一个思维模型,来思考一些产品及其在市场上的地位。
面向散户的产品,如Dune或CoinGecko,几乎可以免费显示所有数据。但客户必须付费才能访问某些数据,或者通过API来运行分析。例如,你可以查看多个Dune wizard创建的所有图表,但却限制你以CSV格式下载的数据行数。你可以付费下载更大的CSV文件,查看私有查询。
专注于散户的公司来自单个用户的收益较低,付费用户相比免费用户比例也很低。将此与互联网公司的免费增值模式的转化率进行比较的话,一般来说,转化率是2%-5%。10%的转化率已经是一个异常值了。他们的策略是拥有尽可能多的免费用户,这样4%的转化率就能带来显著的收益提高。这就是我们所说的漏斗的顶部。
因此,数据公司需要漏斗顶部足够大,才能产生足够的收入,以在较低转化率水平上维持自己的运营。当网站有很多访问者时,公司也可以考虑广告收入。CoinGecko利用广告收入作为杠杆,继续免费提供大部分数据。
多年来,公司已经填补了(B2B和B2C)两端,但在两者之间留下了一些空白。如果有人想看看中心化交易所的订单簿是如何变动的,或者put call ratio、IV和skew曲线是如何变化的,没有多少产品可以帮助实现可视化。介于CoinGeckos和单纯的B2B产品之间的产品是有发展空间的。
在免费的企业中找到护城河并不容易。区块链数据是免费的。你收集的数据没有什么特别的。所以,数据业务的护城河并不仅仅基于你拥有别人没有的数据,而是基于团队以有洞见的、可使用的格式,按时、无误地提供数据的能力。
许多公司声称拥有相同的数据,但数据质量和表示方式有所不同。例如,许多公司声称拥有链下订单簿数据。然而,像买卖订单数量、时间序列长度以及可用交易和交易对的数量等因素因供应商而异。Amberdata和Kaiko拥有加密市场最全面的订单簿数据。
然而,为什么只有少数供应商能够提供这种数据呢?Web3数据中护城河的出现具体解释如下。
人才——恕我直言,当原材料是免费的时候,你如何用它决定了产品的价值。将原始数据转化为有用的信息需要用到加密领域和传统金融市场中许多利基领域的专业知识。像Velo Data这样拥有传统市场经验的团队比其他试图构建类似B2C产品的团队更有优势。理解区块链数据结构并具有金融市场相关经验的开发人才是很难得的。
基础设施——收集和交付大量数据需要基础设施,这并不容易实现。基础设施需要资金和人才。为什么基础设施是护城河?想想内存池数据。区块包含已确认交易的数据。那些未确认的交易呢?
不同的网络节点(例如,连接到同一个池的节点)看到不同的未确认交易。仅运行一个节点是无法看到竞争交易的全局的。在几个区块链上维护多个节点会增加基础设施成本。就像人工智能(以及过去的内容网络)一样,随着时间的推移,保持低硬件成本的能力将决定在该领域谁输谁赢。
网络效应——人们可以假设网络效应存在于很多加密数据产品中。以Chainlink为例。它是最早支持应用程序从其他应用程序或链读取数据的oracle之一。它成功获得了社区的支持,并拥有最强大的社区之一。另一个例子是Nansen。它的成功之处是地址标签,让它将资产移动挂钩真实的实体,而不是十六进制的地址。
随后,它推出了NFT Paradise和 Token God Mode等功能,让用户可以更高效地跟踪NFT和代币。Arkham推出了一款类似于Nansen标签的产品,但在仪表板和研究方面的投资使Nansen向企业客户倾斜,并为他们提供定制化产品。值得一提的是,网络效应离不开前两点(人才和基础设施)。
索引器体现的网络效用比较明显。一个产品支持的链数量越多,开发人员使用该产品而不依赖多个来源的可能性就越高。像Covalent这样的团队在这方面具有优势,因为他们在相当长一段时间内一直在优化支持链的广度(数量)。但一定要记住,深度和广度同样重要。
现在要说一个产品在加密领域是否具有护城河还为时过早。我们已经看到了这一宏图中的先发优势。随着Web3社交等类别的出现以及人工智能和加密货币之间的重叠越来越大,加密数据产品可能会成为下一个Alphabet。但这将是一个长达几十年的故事;我们还处于故事的开端。
我们在本文中提到的许多用例都以某种形式关注了金融投机。甚至使用API查询数据的开发人员也在构建金融产品。这可能看起来很奇怪,但区块链(作为一种新型网络)遵循了与电报和互联网相同的趋势。
新媒介的到来和新网络的出现加速了金融用例的发展。就互联网而言,直到21世纪初人们才意识到用户可以根据他们的位置区分定位。对于区块链来说,我们仍在研究如何根据公开的数据轨迹构建商业模式。
在对这些平台的日常使用中,我们看到了一个关键变化——Dune Analytics在其产品中嵌入了人工智能。Dune为用户提供了一个基于SQL的界面,用于查询以太坊和Solana等区块链数据。此类产品市场通常仅限于那些懂得如何编写SQL查询的用户。这些产品最近开始使用人工智能来帮助分析师生成查询,而无需分析师成为SQL专家,但并不像人们希望的那样具有功能性。无论怎样,这仍然是迈向未来的一步。也许用不了多久,我们就可以让人工智能(比如ChatGPT)从区块链上查询数据并提供分析。
在Web3背景下,思考“数据”的一种方式是通过谷歌Maps的角度。GPS至少在20世纪80年代就已出现了。谷歌投入精力绘制世界地图。在为第三方应用程序(使用API)提供地图覆盖的过程中,谷歌使新一代应用程序得以建立。从快递到叫车服务,一切都在蓬勃发展,因为一家专注于数据的公司从开发者手中接过了这个包袱。
Web3数据产品也将扮演类似角色。我们还不清楚这个公共可用资源之上可构建的应用程序的确切性质,但很明显,数据领域潜藏着无尽的可能。
来源:金色财经