现在是 2024 年,你会认为获取加密数据很容易,因为有了 Etherscan、Dune 和 Nansen,你可以随时查看想要的数据。表面上确实像这么回事儿。
你看,在正常的 web2 领域,当你的公司有 10 名员工和 100,000 名客户时,你产生的数据量可能不超过 100 GB(处于上风)。这个数据规模足够小,你的 iPhone 可以处理你的任何问题并存储所有内容。然而,一旦你有 1,000 名员工和 100,000,000 名客户,你处理的数据量可能现在有数百 TB,甚至 PB。
这从根本上来说是一个完全不同的挑战,因为你要处理的规模需要更多的考虑。要处理数百 TB 的数据,你需要一个分布式计算机集群来发送作业。在发送这些作业时,你必须考虑:
这些都是在处理跨多台机器的大数据计算时需要考虑的事项。规模会产生一些问题,而这些问题对于那些不使用它的人来说是看不见的。数据是这样的领域之一,规模越大,需要的基础设施就越多,才能正确管理它。对大多数人来说,这些问题是看不见的。要处理这种规模,您还面临着其他挑战:
有趣的是,在 web2 中,每个人都希望数据公开。在 web3 中,终于可以公开了,但很少有人知道如何做必要的工作来理解它。一个欺骗性的事实是,通过一些帮助,你可以相当轻松地从全局数据集中获取你的数据集,这意味着“本地”数据很容易,但“全局”数据很难获得(与每个人和每件事有关的东西)。
好像事情已经不具有挑战性了,因为你必须处理的规模。现在有一个新的维度让加密数据变得具有挑战性,那就是由于市场的经济激励,加密数据会不断分裂。例如:
由于你无法量化你不知道的东西,碎片化可能特别具有挑战性。你永远不会知道世界上存在的所有 L2 以及总共会出现的虚拟机。一旦它们达到足够的规模,你就能跟上,但这是另一个故事了。
我认为最后一个问题让很多人感到惊讶,那就是数据是开放的,但不能轻易实现互操作。你看,团队拼凑起来的所有智能合约就像一个大型数据库中的小型数据库。我喜欢把它们看作模式。所有的数据都在那里,但开发智能合约的团队通常知道如何将它们拼凑在一起。如果你愿意,你可以花时间自己去理解它,但你必须对所有潜在的模式进行数百次这样的操作——而且,在没有交易另一方买家的情况下,你怎么能不花大笔钱就做到这一点呢?
如果觉得这个太抽象了,我来举个例子。你说“这个用户使用桥梁的频率是多少?”。虽然这看起来是一个问题,但里面嵌套了很多问题。让我们来分解一下:
上述每个挑战都很难解决,而且需要大量的资源。
那么这一切会导致什么呢?好吧,我们今天的生态系统状况是……
我希望本文能帮助您了解加密数据领域的现实情况。