从 Web2到 Web3:数据规模与碎片化带来的新挑战
从 Web2到 Web3:数据规模与碎片化带来的新挑战
在2024年,获取加密数据似乎变得越来越简单,借助 Etherscan、Dune 和 Nansen 等工具,我们可以随时查看所需的数据。表面上看,这确实如此。
数据规模的转变
在传统的 Web2领域,当一个公司拥有10名员工和100,000名客户时,生成的数据量可能不超过100 GB,这个数据规模足够小,iPhone 就能轻松处理和存储所有数据。然而,当公司规模扩大到1,000名员工和100,000,000名客户时,处理的数据量可能会达到数百 TB,甚至 PB。
这种规模的增加带来了全新的挑战,需要更多的考虑。处理数百 TB 的数据,你需要一个分布式计算机集群来执行任务。在发送这些作业时,需要考虑以下问题:
如果工人未能履行职责,会发生什么?
如果一名工人比其他工人花的时间长得多,会怎样?
如何确定分配任务给哪位工人?
如何将所有结果合并在一起,确保计算的正确性?
这些问题在处理跨多台机器的大数据计算时非常关键。数据的规模带来了一些看不见的问题。规模越大,所需的基础设施就越多,才能正确管理数据。对大多数人来说,这些问题是不可见的。处理这种规模的数据,还需要应对其他挑战:
拥有操作这种规模机器的专业人才
存储和计算所有数据的成本
前瞻性规划和架构,以确保需求得到支持
碎片化的挑战
随着数据规模的增加,另一个新的维度使加密数据变得更加复杂,那就是由于市场的经济激励,加密数据会不断分裂。例如:
新区块链的兴起:目前,已有近50个 L2上线,另外还有数百个正在筹备中。每个 L2实际上都是一个新的数据库源,需进行索引和配置,虽然希望它们标准化,但实际情况往往不尽如人意。
新型虚拟机的兴起:EVM 只是其中一个领域,SVM、Move VM 和其他许多虚拟机也正在涌现。每种新型虚拟机意味着一种全新的数据方案,需从基本原理和深入理解的角度来处理。市场上有数十亿美元的投资在推动这些新技术的发展。
新账户原语的兴起:智能合约钱包、托管钱包和账户抽象化为数据的解释带来了新的复杂性。发件人地址可能并非真实用户,而是由中继提交,真实用户可能在混合中的某个地方。
由于无法量化未知的事物,碎片化的挑战尤其突出。你永远不知道世界上所有的 L2和即将出现的虚拟机。即便它们达到足够的规模,跟进也是一个全新的故事。
开放但不互操作
另一个让人惊讶的问题是数据虽然开放,但难以实现互操作性。团队拼凑的智能合约就像一个大型数据库中的小型数据库。我喜欢把它们看作模式,所有的数据都在那里,但开发智能合约的团队通常了解如何将它们拼凑在一起。你可以花时间去理解,但你需要对所有潜在的模式进行数百次操作,且在没有交易另一方买家的情况下,很难做到这一点。
举个例子,你想知道“这个用户使用桥梁的频率是多少?”这个问题看似简单,但内含许多复杂因素:
你需要知道所有存在的桥梁,以及你关心的链。全链数据的获取本身就很有挑战性。
对于每座桥梁,你需要了解它们的智能合约运作方式。
一旦理解了所有的排列,就需要通过一个能够统一所有模式的模型进行推理。
解决上述每个挑战都非常困难,需要大量资源。
结果
所有这些问题导致了今天的生态系统状况……
信息的不可量化:生态系统中,几乎没人知道真正发生了什么。很多活动难以准确量化,用户数量虚高,女巫攻击难以检测,指标变得无关紧要和不可信!
链上身份的真实化问题:若要建立强烈的身份意识,准确的数据至关重要,否则身份将被歪曲。
从 Web2到 Web3,数据的规模和复杂性不断增加,挑战也在不断演变。如何应对这些挑战,将决定 Web3未来的发展方向。