AI与DePIN融合分布式GPU计算网络崛起

2025-07-11 20:41:47

AI与DePIN的交汇:分布式GPU计算网络的崛起

自2023年以来,AI和DePIN成为Web3领域的热门趋势,AI市值约300亿美元,DePIN市值约230亿美元。本文聚焦两者交叉领域,探讨相关协议的发展。

在AI技术栈中,DePIN网络通过计算资源为AI提供实用性。大型科技公司的发展导致GPU短缺,使其他开发者难以获得足够GPU进行计算。这通常导致开发者选择中心化云提供商,但由于需签署不灵活的长期高性能硬件合同,效率低下。

DePIN本质上提供了更灵活且更具成本效益的替代方案,使用代币奖励激励符合网络目标的资源贡献。AI领域的DePIN将GPU资源从个人所有者众包到数据中心,为需要访问硬件的用户形成统一供应。这些DePIN网络不仅为需要计算能力的开发者提供可定制性和按需访问,还为GPU所有者提供额外收入。

市场上有众多AI DePIN网络,本文将探讨各协议的作用、目标及已实现的亮点。

AI DePIN网络概述

Render是提供GPU计算能力P2P网络的先驱,之前专注于为内容创作渲染图形,后来通过集成Stable Diffusion等工具集,将范围扩展到包括从神经辐射场(NeRF)到生成AI的计算任务。

亮点:

由拥有奥斯卡获奖技术的云图形公司OTOY创立
GPU网络已被派拉蒙影业、PUBG、星际迷航等娱乐行业大公司使用
与Stability AI和Endeavor合作,利用Render的GPU将AI模型与3D内容渲染工作流程集成
批准多个计算客户端,集成更多DePIN网络的GPU

Akash将自己定位为支持存储、GPU和CPU计算的传统平台(如AWS)的"超级云"替代品。利用Akash容器平台和Kubernetes管理的计算节点等开发者友好工具,它能够跨环境无缝部署软件,从而能运行任何云原生应用程序。

亮点:

针对从通用计算到网络托管的广泛计算任务
AkashML允许其GPU网络在Hugging Face上运行超过15,000个模型,同时与Hugging Face集成
Akash上托管着一些值得注意的应用,如Mistral AI的LLM模型聊天机器人、Stability AI的SDXL文本转图像模型,以及Thumper AI的新基础模型AT-1
构建元宇宙、AI部署和联邦学习的平台正在利用Supercloud

io.net提供对分布式GPU云集群的访问,这些集群专门用于AI和ML用例。它聚合了来自数据中心、加密矿工和其他去中心化网络等领域的GPU。该公司之前是一家量化交易公司,在高性能GPU价格大幅上涨后,转向了目前的业务。

亮点:

其IO-SDK与PyTorch和Tensorflow等框架兼容,其多层架构可根据计算需求自动动态扩展
支持创建3种不同类型的集群,可在2分钟内启动
与其他DePIN网络(如Render、Filecoin、Aethir和Exabits)合作,整合GPU资源

Gensyn提供专注于机器学习和深度学习计算的GPU计算能力。它声称通过结合使用学习证明、基于图形的精确定位协议以及涉及计算提供商的质押和削减的激励游戏等概念,实现了比现有方法更高效的验证机制。

亮点:

预计V100等效GPU的每小时成本约为0.40美元,大幅节省成本
通过证明堆叠,可对预先训练的基础模型进行微调,完成更具体任务
这些基础模型将是去中心化的、全球拥有的,除硬件计算网络外还提供额外功能

Aethir专门搭载企业GPU,专注于计算密集型领域,主要是AI、机器学习(ML)、云游戏等。其网络中的容器充当执行基于云的应用程序的虚拟端点,将工作负载从本地设备转移到容器,实现低延迟体验。为确保为用户提供优质服务,他们根据需求和位置将GPU移近数据源,从而调整资源。

亮点:

除AI和云游戏外,Aethir还扩展到云手机服务,与APhone合作推出去中心化云智能手机
与NVIDIA、Super Micro、HPE、富士康和Well Link等大型Web2公司建立广泛合作
与Web3中多个合作伙伴(如CARV、Magic Eden、Sequence、Impossible Finance等)合作

Phala Network充当Web3 AI解决方案的执行层。其区块链是一种无需信任的云计算解决方案,通过使用可信执行环境(TEE)设计来处理隐私问题。其执行层不是用作AI模型的计算层,而是使AI代理能够由链上智能合约控制。

亮点:

充当可验证计算的协处理器协议,同时使AI代理能够链上资源
其AI代理合约可通过Redpill获得OpenAI、Llama、Claude和Hugging Face等顶级大型语言模型
未来将包括zk-proofs、多方计算(MPC)、全同态加密(FHE)等多重证明系统
未来支持H100等其他TEE GPU,提升计算能力

项目比较

| | Render | Akash | io.net | Gensyn | Aethir | Phala | |--------|-------------|------------------|---------------------|---------|---------------|----------| | 硬件 | GPU & CPU | GPU & CPU | GPU & CPU | GPU | GPU | CPU | | 业务重点 | 图形渲染和AI | 云计算、渲染和AI | AI | AI | AI、云游戏和电信 | 链上 AI 执行 | | AI任务类型 | 推理 | 两者 | 两者 | 训练 | 训练 | 执行 | | 工作定价 | 基于表现的定价 | 反向拍卖 | 市场定价 | 市场定价 | 招标系统 | 权益计算 | | 区块链 | Solana | Cosmos | Solana | Gensyn | Arbitrum | Polkadot | | 数据隐私 | 加密&散列 | mTLS 身份验证 | 数据加密 | 安全映射 | 加密 | TEE | | 工作费用 | 每项工作 0.5-5% | 20% USDC, 4% AKT | 2% USDC，0.25% 准备金费用 | 费用低廉 | 每个session 20% | 与质押金额成比例 | | 安全 | 渲染证明 | 权益证明 | 计算证明 | 权益证明 | 渲染能力证明 | 继承自中继链 | | 完成证明 | - | - | 时间锁证明 | 学习证明 | 渲染工作证明 | TEE 证明 | | 质量保证 | 争议 | - | - | 核实者和举报人 | 检查器节点 | 远程证明 | | GPU 集群 | 否 | 是 | 是 | 是 | 是 | 否 |

重要性

集群和并行计算的可用性

分布式计算框架实现了GPU集群,在不影响模型准确性的情况下提供更高效的训练,同时增强了可扩展性。训练复杂AI模型需要强大计算能力,通常必须依靠分布式计算来满足需求。OpenAI的GPT-4模型拥有超过1.8万亿个参数,在3-4个月内使用128个集群中约25,000个Nvidia A100 GPU进行训练。

此前,Render和Akash仅提供单一用途的GPU,可能限制了对GPU的市场需求。不过,大多数重点项目现已整合集群以实现并行计算。io.net与Render、Filecoin和Aethir等其他项目合作,将更多GPU纳入其网络,并已成功在24年第一季度部署超过3,800个集群。尽管Render不支持集群,但其工作原理与集群类似,将单个帧分解为多个不同节点,以同时处理不同范围的帧。Phala目前仅支持CPU,但允许将CPU工作器集群化。

将集群框架纳入AI工作流程网络非常重要,但满足AI开发者需求所需的集群GPU数量和类型是另一个问题。

数据隐私

开发AI模型需要使用大量数据集,这些数据集可能来自各种来源,形式各异。敏感数据集可能面临暴露给模型提供商的风险。采取足够安全措施对使用AI至关重要。因此,拥有各种数据隐私方法对于将数据控制权交还给数据提供商至关重要。

大多数项目都使用某种形式的数据加密来保护数据隐私。Render在将渲染结果发布回网络时使用加密和哈希处理,而io.net和Gensyn则采用某种形式的数据加密。Akash使用mTLS身份验证,仅允许租户选择的提供商接收数据。

io.net最近与Mind Network合作推出了完全同态加密(FHE),允许在无需先解密的情况下处理加密数据。这项创新可以比现有加密技术更好地确保数据隐私。

Phala Network引入了可信执行环境(TEE),即连接设备主处理器中的安全区域。通过这种隔离机制,它可以防止外部进程访问或修改数据,无论其权限级别如何。除TEE外,它还在其zkDCAP验证器和jtee命令行界面中结合了zk-proofs的使用,以便与RiscZero zkVM集成的程序。

计算完成证明和质量检查

这些项目提供的GPU可为一系列服务提供计算能力。由于服务范围广泛,从渲染图形到AI计算,因此此类任务的最终质量可能不总是符合用户标准。可以使用完成证明的形式来表示用户租用的特定GPU确实用于运行所需服务,质量检查对请求完成此类工作的用户有益。

计算完成后,Gensyn和Aethir都会生成证明以表明工作已完成,而io.net的证明则表明租用的GPU的性能已得到充分利用且没有出现问题。Gensyn和Aethir都会对已完成的计算进行质量检查。对于Gensyn,它使用验证者重新运行生成的证明的部分内容以与证明进行核对,而举报人则充当对验证者的另一层检查。Aethir使用检查节点来确定服务质量,对低于标准的服务进行处罚。Render建议使用争议解决流程,如果审查委员会发现节点存在问题,则削减该节点。Phala完成后会生成TEE证明,确保AI代理在链上执行所需的操作。

硬件统计数据

| | Render | Akash | io.net | Gensyn | Aethir | Phala | |-------------|--------|-------|--------|------------|------------|--------| | GPU数量 | 5600 | 384 | 38177 | - | 40000+ | - | | CPU数量 | 114 | 14672 | 5433 | - | - | 30000+ | | H100/A100数量 | - | 157 | 2330 | - | 2000+ | - | | H100费用/小时 | - | $1.46 | $1.19 | - | - | - | | A100费用/小时 | - | $1.37 | $1.50 | $0.55 (预计) | $0.33 (预计) | - |

高性能GPU的要求

由于AI模型训练需要性能最佳的GPU,因此开发者倾向于使用Nvidia的A100和H100等GPU。H100的推理性能比A100快4倍,

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

19人点赞了这条动态

赞赏
19
4
分享

0/400

GasFeeCrier

· 07-11 21:11

怎么啥项目都往ai上靠

踏空资深专业户

· 07-11 21:09

这玩意真能靠谱? 我小作坊矿机根本挖不起

HodlNerd

· 07-11 21:08

从统计学的角度来看，分布式GPU网络可能是我们打破人工智能寡头垄断的最佳机会……说实话，这里有着迷人的博弈论在发挥作用。

查看原文回复0

SatoshiSherpa

· 07-11 21:05

早说是烤显卡的活

AI与DePIN融合 分布式GPU计算网络崛起