🎉【Gate 3000万纪念】晒出我的Gate时刻,解锁限量好礼!
Gate用户突破3000万!这不仅是数字,更是我们共同的故事。
还记得第一次开通账号的激动,抢购成功的喜悦,或陪伴你的Gate周边吗?
📸 参与 #我的Gate时刻# ,在Gate广场晒出你的故事,一起见证下一个3000万!
✅ 参与方式:
1️⃣ 带话题 #我的Gate时刻# ,发布包含Gate元素的照片或视频
2️⃣ 搭配你的Gate故事、祝福或感言更佳
3️⃣ 分享至Twitter(X)可参与浏览量前10额外奖励
推特回链请填表单:https://www.gate.com/questionnaire/6872
🎁 独家奖励:
🏆 创意大奖(3名):Gate × F1红牛联名赛车模型一辆
👕 共创纪念奖(10名): 国际米兰同款球员卫衣
🥇 参与奖(50名):Gate 品牌抱枕
📣 分享奖(10名):Twitter前10浏览量,送Gate × 国米小夜灯!
*海外用户红牛联名赛车折合为 $200 合约体验券,国米同款球衣折合为 $50 合约体验券,国米小夜灯折合为 $30 合约体验券,品牌抱枕折合为 $20 合约体验券发放
🧠 创意提示:不限元素内容风格,晒图带有如Gate logo、Gate色彩、周边产品、GT图案、活动纪念品、活动现场图等均可参与!
活动截止于7月25日 24:00 UTC+8
3
AI+Web3生态全景:从算力共享到隐私计算的新机遇
AI+Web3:塔楼与广场
TL;DR
AI 概念的 Web3 项目在一二级市场成吸金标的。
Web3 在 AI 行业的机会体现在:使用分布式激励来协调长尾中的潜在供应------跨数据、存储和计算;与此同时,建立一个开源模型以及 AI Agent 的去中心化市场。
AI 在 Web3 行业主要用武之地为链上金融(加密支付、交易、数据分析)以及辅助开发。
AI+Web3 的效用体现在两者的互补:Web3 有望对抗 AI 集中化,AI 有望帮助 Web3 破圈。
引言
近两年,AI 的发展像被按了加速键,这场由 Chatgpt 煽动的蝴蝶翅膀,不仅打开了生成式人工智能的新世界,同样在彼岸的 Web3 掀起了洋流之势。
在 AI 概念的加持下,相较放缓的加密市场融资提振明显。媒体统计,仅在 2024 上半年,就共有 64 个 Web3+AI 的项目完成了融资,基于人工智能的操作系统 Zyber365 在 A 轮就实现了 1 亿美元的最高融资金额。
二级市场更为繁荣,加密聚合网站 Coingecko 的数据显示,短短一年多时间,AI 赛道总市值已达到 485 亿美元,24 小时交易量接近 86 亿美元;主流 AI 技术进展带来的利好明显,某公司的 Sora 文本转视频模型发布后,AI 板块的平均价格上涨了 151%;AI 效应同样辐射至加密货币吸金板块之一 Meme:首个 AI Agent 概念的 MemeCoin------GOAT 迅速走红并斩获 14 亿美金的估值,成功掀起 AI Meme 热。
关于 AI+Web3 的研究和话题同样火热,从 AI+Depin到AI Memecoin再到当前的AI Agent 和 AI DAO,FOMO 情绪已然跟不上新叙事轮换的速度。
AI+Web3,这个充满了热钱、风口和未来幻想的术语组合,难免被人视作一场被资本撮合的包办婚姻,我们似乎很难分辨在这席华丽的袍子之下,到底是投机者的主场,还是黎明爆发的前夜?
要回答这个问题,一个对双方都关键的思索是,有对方它会变得更好吗?是否能从对方的模式中受益?在本篇文章里,我们也试图站在前人的肩膀上审视这一格局:Web3 如何能够在 AI 技术堆栈的各个环节里发挥作用,AI 又能给 Web3 带来什么新的生机?
Part.1 AI 堆栈下 Web3 有何机会?
在展开这个话题之前,我们需要了解 AI 大模型的技术堆栈:
用更通俗的语言来表述整个过程:「大模型」就像是人类的大脑,在早期阶段,这个大脑属于刚刚降临人间的婴儿,需要观察与摄入周围的外界海量信息去理解这个世界,这就是数据的「收集」阶段;由于计算机不具备人类的视觉听觉等多个感官,在训练前,外界的大规模无标注信息需要通过「预处理」转化成计算机能够理解且可用的信息格式。
输入数据后 AI 通过「训练」构建了一个具有理解和预测能力的模型,则可以看作是婴儿逐渐理解与学习外界的过程,模型的参数就像是婴儿学习过程中不断调整的语言能力。当学习的内容开始分科,或者与人交流得到反馈并且修正,便进入了大模型的「微调」环节。
孩童逐渐长大学会说话后,就可以在新的对话中理解意思并表达自己的感受和想法,这阶段类似于AI大模型的「推理」,模型能够对新的语言和文本输入进行预测和分析。婴儿通过语言能力表达感受、描述物体和解决各种问题,这也类似于AI大模型在完成训练投入使用后在推理阶段应用于各类特定的任务,例如图像分类、语音识别等。
而 AI Agent则更趋近于大模型的下一个形态------能够独立执行任务并追求复杂目标,不仅具备思考能力,还能够记忆、规划,且能够运用工具与世界互动。
当前,针对 AI 在各个堆栈的痛点,Web3 目前初步形成了一个多层次、相互连接的生态系统,涵盖了 AI 模型流程的各个阶段。
一、基础层:算力与数据的 Airbnb
▎算力
当前,AI 的最高成本之一,是训练模型与推理模型所需的算力与能源。
一个例子是,某公司的 LLAMA3 需要 16000 个由某公司生产的 H100GPU(这是一款专为人工智能和高性能计算工作负载设计的顶级图形处理单元。)30 天才能完成训练。后者 80GB 版本的单价在 30,000 至 40,000 美元之间,这需要 4-7 亿美元的计算硬件投资(GPU+网络芯片),同时,每月的训练需要消耗 16 亿千瓦时,能源支出每月近 2000 万美元。
对于 AI 算力的解压,也正是 Web3 最早与 AI 交叉的领域------DePin(去中心化物理基础设施网络)目前,DePin Ninja 数据网站已经陈列出 1400 多个项目,其中 GPU 算力共享代表项目包括 io.net、Aethir、Akash、Render Network 等等。
其主要逻辑在于:平台允许拥有闲置 GPU 资源的个人或实体以无需许可的去中心化方式贡献其计算能力,通过类似于某打车平台或某住宿平台的买家和卖家在线市场,提高未被充分利用的 GPU 资源使用率,终端用户也因此获得更加低成本的高效计算资源;同时,质押机制也确保如果出现违反质量控制机制或中断网络的情况,资源提供者有其相应惩罚。
其特点在于:
聚集闲置GPU资源:供应方主要为第三方独立的中小型数据中心、加密矿场等运营商的过剩算力资源、共识机制为 PoS 的挖矿硬件,如 FileCoin 与 ETH 矿机。目前也有项目致力于启动门槛更低的设备,如 exolab 利用MacBook、 iPhone、iPad 等本地设备建立运行大模型推理的算力网络。
面对 AI算力的长尾市场:
a.「于技术端而言」去中心化算力市场更适合推理步骤。训练更加依赖于超大集群规模 GPU 带来的数据处理能力,而推理对于 GPU 运算性能相对较低,如Aethir 专注于低延迟的渲染工作和AI推理应用。
b.「于需求端而言」中小算力需求方不会单独训练自己的大模型,而只是选择围绕少数头部大模型进行优化、微调,而这些场景都天然适合分布式闲置算力资源。
▎数据
数据,是 AI 的地基。如果没有数据,计算就如浮萍之末毫无用处,而数据与模型之间的关系就像" Garbage in, Garbage out "的那句俗谚,数据的数量与输入质量决定着最终模型的输出质量。对于现 AI 模型的训练而言,数据决定了模型的语言能力、理解能力、甚至价值观以及人性化表现。目前,AI 的数据需求困境主要聚焦于以下四方面:
数据饥渴:AI 模型训练依赖大量数据输入。公开资料显示,某公司训练GPT-4 的参数量就达到了万亿级别。
数据质量:随着 AI 与各行业的结合,数据时效性、数据多样性、垂类数据的专业性、新兴数据源如社交媒体情绪的摄入对其质量也提出了新的要求。
隐私与合规问题:当前各个国家、企业逐渐注意到优质数据集的重要性,正在对数据集爬取进行限制。
数据处理成本高昂:数据量大,处理过程复杂。公开资料显示,AI 公司超过30% 的研发成本是用于基础数据采集、处理。
目前,web3 的解决方案体现在以下四个方面:
1、数据收集:能够免费提供抓取的真实世界数据正在迅速耗尽,AI 公司为数据付费的支出逐年升高。但与此同时,这份支出并没有反哺到数据真正的贡献者身上,平台全然享受了数据带来的价值创造,如某社交平台通过与 AI 公司签订的数据授权协议实现合计 2.03 亿美元的收入。
让真正贡献的用户同样参与数据带来的价值创造,以及通过分布式网络与激励机制,以低成本的方式获取用户更加私人、更具价值的数据,是 Web3 的愿景。
如Grass 是一个去中心化的数据层和网络,用户可以通过运行 Grass 节点,贡献闲置带宽和中继流量用以捕获整个互联网中的实时数据,并获取代币奖励;
Vana 则引入了一个独特的数据流动性池(DLP)概念,用户可以将他们的私人数据(如购物记录、浏览习惯、社交媒体活动等)上传至特定 DLP,并灵活选择是否将这些数据授权给特定的第三方使用;
在 PublicAI 中,用户可在某社交平台上使用 #AI 或#Web3 作为分类标签并@PublicAI 即可实现数据收集。
2、数据预处理:在 AI 的数据处理过程中,由于收集来的数据通常嘈杂且包含错误,其在训练模型之前必须将其清理并转换为可用格式,涉及标准化、过滤和处理缺失值的重复任务。此阶段是 AI 行业为数不多的人工环节,已经衍生出数据标注师这一行业,随着模型对数据质量的要求提高,数据标注师的门槛也随之提升,而这一任务天然适合 Web3 的去中心化激励机制。
目前,Grass 与 OpenLayer都正在考虑加入数据标注这一关键环节。
Synesis提出了「Train2earn」的概念,强调数据质量,用户可通过提供标注数据、注释或其他形式的输入获得奖励。
数据标注项目Sapien 则将标记任务游戏化,并让用户质押积分以赚取更多积分。
3、数据隐私与安全:需要厘清的是,数据隐私与安全是两个不同的概念。数据隐私涉及敏感数据的处理,数据安全则保护数据信息免遭未经授权的访问、破坏和盗窃。由此,Web3 隐私技术优势和潜在的应用场景体现在两个方面:(1)敏感数据的训练;(2)数据协作:多个数据所有者可以共同参与 AI 训练,而无需共享其原始数据。
当前 Web3 较为普遍的隐私技术包括:
可信执行环境(TEE),例如Super Protocol;
完全同态加密(FHE),例如 BasedAI 、Fhenix.io 或 Inco Network;
零知识技术(zk),如 Reclaim Protocol 使用 zkTLS 技术,生成 HTTPS流量的零知识证明,允许用户从外部网站安全导入活动、声誉和身份数据,而无需暴露敏感信息。
不过,目前该领域仍处于早期阶段,大部分的项目仍在探索中,目前的一个困境是计算成本