An article analyzing why CZ is optimistic about Vana to build a better AI
作者:Biteye 核心贡献者 Jesse
Editor: Crush, core contributor of Biteye
* 全文约 6000 字,预计阅读时间为 12 分钟
一个月前,YZi Labs 宣布投资 Vana,Binance创始人 CZ 加入担任顾问, 确立了 Vana 在 AI 数据赛道的领军地位。四天后在和 Vana 的 AMA 中,CZ 表示数据则是 AI 的核心燃料,公共数据已耗尽,而私有数据尚待开发,看好 Vana 的产品市场契合度(PMF)和用户增长。
为什么 YZi Labs、Coinbase Venture、Paradigm 纷纷投资 Vana? 为什么 CZ 看好 Vana 的发展?
本报告将系统分析 AI 数据困境、Vana 的核心价值主张、实际应用场景及其未来增长轨迹,揭示 Vana 如何成为 AI 生态系统的关键基础设施。
01 AI 与数据困境:突破封闭壁垒
根据 Pitchbook 数据,2025 年第一季度美国 AI 行业已吸引近 200 亿美元投资。截止 2024 年 AI 初创公司占据全球风险投资的三分之一,累计达 1315 亿美元,其中近四分之一的新兴创业实体专注于 AI 领域。Statista 数据进一步证实了这一爆发式增长轨迹——AIXiaobai Navigation 和机器学习赛道的风投资金从 2011 年的 6.7 亿美元激增至 2020 年的 360 亿美元,增长超过 50 倍。这一现象明确表明,AI 已成为聪明资本和顶尖创业者的共同选择。
然而,AI 的根本架构—”数据 + 模型 + 算力”正面临结构性瓶颈。AI 模型性能的核心驱动因素并非算力优势或算法突破,而是训练数据集的质量与规模。当前大语言模型来到训练数据枯竭的临界点。Meta 的 Llama 3 已基于约 15 万亿个 Token 进行训练,这一数据量已几乎耗尽整个公共互联网上可获取的高质量数据资源。尽管公共互联网数据量庞大,但这仅是冰山一角。市场普遍忽视的关键事实是:高价值数据大多被锁定在需要授权访问的私有系统中。公共互联网数据在所有数据中占比不足 0.1%。而这一问题超出了 AI 行业自身的解决能力范畴,需要借助Blockchain技术重构数据生产关系,建立全新激励机制,催化高质量数据的大规模涌现。
另一方面,今天绝大多数数据都被掌握在 Web2 科技公司的封闭生态系统中。人工智能的发展正面临数据墙的挑战,而这一壁垒的存在,正是因为这些企业深知数据的巨大价值。高质量的人工智能模型具有极高的经济回报,例如 OpenAI 的年收入已达到约 34 亿美元。而要构建优秀的 AI 模型,就需要大量的数据支撑,数据的获取往往需要支付高昂的成本。
例如,Reddit 每年通过销售数据获利约 2 亿美元,PhotoBucket 的图片数据每张售价在 1 至 2 美元之间,苹果的新闻数据交易更是达到了 5000 万美元。数据所有权已从简单的隐私偏好转变为重大的经济问题。在 AI 模型驱动大部分经济的世界中,数据所有权相当于持有未来 AI 模型的股权。
随着数据的商业化变得愈发普遍,数据访问的难度也在不断增加。许多平台开始调整服务条款和 API 政策,以限制外部开发者的访问权限。例如,Reddit 和 Stack Overflow 相继修改了 API 规则,使得数据获取变得更加困难。这一趋势正在扩展,那些掌握重要数据的平台正逐步走向封闭化。
然而,仍有一个群体可以自由访问这些数据,那就是用户自己。许多人并未意识到,在法律层面上,他们对自己的数据享有完全的所有权。就像将汽车停放在停车场,停车场无权随意处置车辆一样,用户在社交平台上存储的数据依然属于自己。
用户在注册时,通常会勾选“允许平台使用我的数据”的选项,这只是给予平台一定的授权,使其能够利用数据来运营服务,但并不意味着用户失去了对数据的所有权。
事实上,用户可以随时申请导出自己的数据。即使平台对开发者的 API 访问进行了严格限制,个人用户仍然可以合法获取属于自己的数据。例如,Instagram 允许用户导出其账号数据,其中不仅包括发布的照片、评论,甚至是附带 AI 生成的营销标签。在 23andMe 平台,用户可以申请导出自己的基因数据,尽管平台可能不会主动提醒你这一点,且流程可能并不直观。
在全球范围内,相关法规正在不断完善,以确保用户能够顺利取回自己的数据。在数据价值日益突出的今天,用户需要充分认识到自己对个人数据的所有权,并积极行使这一权利。
02 VANA 的核心概念
科技企业正在通过构建封闭系统来保护其宝贵的数据资产。VANA 的核心使命在于解锁封闭生态中的数据,并将其归还至用户手中,实现数据自主权。
换而言之,每位用户都可以从不同平台提取自身数据,并重建一个比任何现有平台更优质、更个性化的数据集。
VANA 框架建立在两个基础概念之上:
-
非托管数据(Non-Custodial Data)这一概念意味着用户可以像管理个人资金一样,掌控自身数据的访问权限。类似于使用数字wallet管理加密资产,在 VANA 生态中,用户同样可以借助钱包来控制数据的使用方式。通过签署交易,用户能够授权应用访问其数据,并决定数据的具体用途,从而确保数据的自主性和Safetysex.
-
贡献证明(Proof of Contribution)尽管单一数据点价值有限,但当大量用户数据聚合时,其整体价值呈指数级增长。贡献证明机制设计旨在确保数据池的高质量标准,同时为数据提供者创造价值回报通道。
当开发者支付费用获取数据访问权限时,数据贡献者将按照其贡献比例获得治理Token分配。这一机制不仅使数据贡献者能持续从数据利用中获取经济回报,更赋予他们实质性治理权,使其能直接参与数据使用规则的制定与决策。
通过激励高质量数据贡献,这一机制正重塑数据市场的定价模式与运行效率,为去中心化数据经济奠定基础。
03 VANA 的生态应用
3.1 DataDAO
DataDAO 是 VANA 生态中的去中心化数据市场,允许用户贡献、标记化并应用数据。用户可根据数据类型(如健身数据、研究数据)选择适合的数据矿池进行贡献。贡献的数据经由 Vana 的贡献证明机制验证质量与价值,确保贡献者获得公平补偿。
数据验证后被代币化为数字资产,可用于交易或 AI 训练,而贡献者保留使用控制权。每次数据被使用,贡献者都获得代币奖励和治理权,使其能经济受益并影响数据池发展方向。通过汇集多方数据,DataDAO 创建了流动性数据市场,实现数据在 Vana 生态系统内的Safety高效流通。
DataDAO 的核心是数据流动性池(DLP),即经验证并与代币绑定的数据集。DLP 由 DataDAO 成员管理并拥有治理权。每个 DLP 明确定义其数据结构和贡献标准,如 Sleep.com 作为睡眠数据 DAO 建立了清晰的数据模式,确保所有链上数据结构化且可用。数据价值不仅体现在规模,更在于结构和可用性。
DataDAO 高度重视数据真实性和有效性。当前多数 DataDAO 采用可信执行环境(TEE)运行 Python 代码验证数据,在保障隐私同时确保质量。例如 Amazon DataDAO 使用浏览器扩展生成数据质量证明。所有 DataDAO 公开其贡献证明,使用户清楚了解数据质量保障程度。
VANA 生态前 16 名 DLP 获得额外激励,用户可通过提供高质量数据获取收益。奖励基于数据访问量、质量和节约成本等指标分配。目前 Reddit DataDAO 规模最大,已吸引约 14 万用户并成功训练用户共有 AI 模型。DLPLabs 推出的 DataDAO 允许司机连接 DIMO_Network 账户,通过共享数据推动汽车相关 AI 创新获得奖励。23andWE 致力于收购 23andMe,防止基因数据被贩卖。
DataDAO 代表了一种全新的数据管理方式,让个体用户能够掌控自己的数据,并通过代币化机制实现收益。这一生态正在快速发展,为数据治理和 AI 训练带来了更具开放性和民主化的可能性。
3.2 DataFi
在数据流动性池的基础上,DeFi 正逐步应用于数据代币领域。数据流动性池相当于整个生态系统的基础层,在此之上,可以基于数据代币构建各类 DeFi 应用。
目前,数据 DeFi 生态系统中已经出现了一些早期应用。例如,去中心化exchange@VanaDataDex 和@flur_protocol,允许用户交换数据代币,并追踪特定数据代币的市场动态。这些平台的出现,推动了数据资产的自由流通,也让数据市场更加活跃。
值得注意的是,目前大多数 DLP 奖励机制主要是将奖励存入 DLP 财库,而不会直接燃烧数据代币或影响其供需。然而,随着 VRC-13 更新的推出,这一机制发生了变化。新的模式引入了一种更具市场导向的方式:通过奖励 VANA 来促进数据代币化,再将其注入 DEX 池,以促进数据代币的交易,并进一步激活 DeFi 生态。
可以预见,未来在 DeFi 领域能够实现的功能,例如借贷、质押、流动性挖矿,甚至是保险,都可能被引入数据代币市场,并创造全新的应用场景。
从传统 Web2 产业视角,类似企业购买石油期货规避价格波动,数据市场可能发展数据期货,让用户提前锁定数据集未来价格,降低获取成本不确定性。
部分交易公司已将数据视为新资产类别,研究市场价值评估方法,如特定数据代币价值评估、销售使用概率及生命周期等,这些因素直接影响数据代币价格和市场流动性,仍有巨大创新空间。
3.3 更便捷的数据访问
目前主网上数据集访问仍相对繁琐,用户需提交详细请求说明需求、支付金额和计划代码,完成审批后才能获取访问权限。虽确保透明规范,但增加操作摩擦。
为提升效率,Vana 正开发更高效数据访问方式,实现自动 API 访问并跨多个 DataDAO 直接获取数据。例如,未来用户可结合睡眠数据与 Coinbase 或 Binance 交易数据,分析特定项目持有者睡眠状况,发掘新市场洞察。
此外,Vana 正在推进一项新的提案,即以 80-20 的标准比例燃烧数据代币和 VANA 以换取数据访问权限。
Vana 还开发了一个新的数据查询界面,大幅简化数据访问流程。用户可以通过钱包登录进行身份验证,并生成数字签名,以证明自己的访问权限。由于 数据流动性池记录了数据格式,用户可以清楚地了解数据结构,并使用 SQL 查询来获取所需的信息。在此过程中,用户可能会先获得部分 合成数据进行测试,确保查询的正确性。而当涉及真实数据时,所有计算操作都会在 TEE 中进行,以确保数据Safety。这种机制能够有效防止“数据的双面问题”(即防止用户在购买数据后擅自转售),从而保护数据的经济价值,确保数据市场的可持续发展。
04 Vana 的价值分析
数据正在迅速成为数字时代的核心资产。虽然数据收集和存储技术已相当成熟,但真正的挑战在于如何有效评估数据质量、实现价值最大化,同时保障隐私安全。Vana 通过创新激励机制巧妙解决这一难题:用户可通过质押 Vana 代币支持高价值 DataDAO,同时获取相应奖励,形成积极循环。
4.1 突破”数据墙”限制
AI 发展已触及”数据墙”——高质量公开数据资源趋于枯竭。未来 AI 突破必然依赖如何有效获取和利用高质量私人数据,如个人健康记录、智能设备使用数据、特斯拉驾驶视频等潜在训练资源。
数据价值存在一个悖论:数据往往因为私密性而保持价值,一旦广泛可得便会被商品化而贬值。正如 AI 模型正经历商品化过程,长期竞争优势将来自于独特数据集的掌控,使模型在特定领域表现卓越。数据一旦公开,价格竞争几乎立即出现,价值迅速下降。
Vana 的 DataDAO 利用 TEE 实现了高质量私人数据的价值传输,同时保障信息隐私。这一突破将有价值数据资产的范畴从有限的公开数据扩展至更广阔的私人数据领域,为 AI 发展开辟了新的可能性。
4.2 数据价值的独特曲线
数据价值呈现出特殊的曲线特性:单个数据点价值几乎可忽略不计,但当数据量达到临界质量时,其价值呈指数级增长。这种特性使数据金融化面临巨大挑战——即只有当集体数据形成后才能为各参与方带来可观回报。
Vana 的 DataDAO 机制提供了解决该困境的创新路径。通过聚合同类数据,DataDAO 为贡献者创造集体议价能力。以特斯拉车主为例,若所有车主通过 DataDAO 集中收集并共享驾驶数据,他们对任何需求方都将拥有强大定价权。相比之下,若每位车主独立发布数据并要求付费,必然导致价格竞争,买家只需从接受最低价的少数卖家处获取足够样本即可。
结构化、经验证的高质量数据集(如已验证的特斯拉驾驶数据)在市场上极具价值,Vana 提供的组织框架使这种价值得以充分实现。
4.3 跨平台数据聚合的突破
DataDAO 最强大之处在于能够实现跨平台数据聚合——这在当今封闭生态系统中几乎不可能实现。假设研究者需要访问同一用户的 Facebook 消息、iMessage 记录和 Google 文档内容,传统路径要求 Facebook、苹果和 Google 全部合作共享。然而,这些平台既缺乏动力将用户数据整合(这可能削弱其数据壁垒),又面临监管障碍无法实现。
DataDAO 通过用户主导的数据整合模式,巧妙绕过了这一障碍,使跨平台数据价值得以释放,为 AI 训练和研究创造了前所未有的可能性。
4.4 新经济参与模式
Vana 的愿景远超纯技术创新,正开创全新经济参与模式。在这一模式中,用户无需传统资本即可参与数字经济——他们已拥有最宝贵资源:个人数据。用户不需要带来资金,只需分享数据。这就是用户的资本。DataDAO 为 Web3 用户提供了基于个人独特数据的被动收入来源,降低了数字经济的准入门槛。
4.5 重塑 AI 收益分配
这种模式可能从根本上重构 AI 进步的收益分配格局。不再是价值主要流向大型科技公司,Vana 通过数据所有权和治理机制使广泛参与 AI 经济成为可能。早期迹象表明这种方法正引起强烈共鸣——测试网上已有超过 300 个 DataDAOs 正在开发中。
展望未来 3-5 年,我们可能见证一个由 1 亿用户贡献数据的完全用户自治 AI 模型诞生,其性能或将超越如今领先的中心化 AI 模型。这种模型完全由用户所有,用户参与感更强,可以与用户建立更紧密连接。数据主权使用户能够选择性支持符合伦理的模型,拒绝不道德公司使用其数据。
去中心化 AI 提供了一种更民主的框架,让社会共同决定 AI 应该学习和相信什么,而非由少数公司主导。用户对数据的所有权不仅意味着经济权益,更包括对 AI 模型行为的实质控制权,如解决模型言论审查等关键问题的能力。
05 总结
在商业层面,Vana 致力于构建完整的数据价值链,覆盖数据聚合、AI 模型训练到数据销售的全流程。当前数据市场被少数平台和数据经纪商垄断,Vana 旨在解决这一市场低效问题,创建更公平的数据交易生态系统。
Vana 不仅仅是一个新平台——它代表着数据所有权和 AI 发展方式的根本转变。通过使用户在参与集体价值创造的同时保持对数据的主权,Vana 正在为更公平、更创新的 AI 未来奠定基础。
在当前充斥着概念炒作的 AI 市场中,Vana 凭借其直击行业核心痛点的创新机制,有望成为塑造 AI 未来发展格局的关键力量。
The article comes from the Internet:An article analyzing why CZ is optimistic about Vana to build a better AI