概况
最后更新于
最后更新于
我们的使命:打造全球最大的人工智能计算DePIN(去中心化物理基础设施网络)
io.net 正在构建一个企业级去中心化计算网络,允许机器学习工程师以相当集中式服务成本的一小部分访问分布式云集群。
我们相信计算是这一代人的“数字石油”,为前所未有的技术工业革命提供动力。我们的愿景是将 IO 打造成计算货币,为产品和服务生态系统提供动力,使计算能够作为资源和资产进行访问。
现代机器学习模型经常利用并行和分布式计算。利用跨多个系统的多核的强大功能来优化性能或扩展到更大的数据集和模型至关重要。训练和推理过程不仅仅是在单个设备上运行的简单任务,而且通常涉及协同工作的 GPU 协调网络。
然而,传统云服务提供商的容量比 AI/ML 公司的市场估计需求少 2.5 倍,这使得访问分布式计算资源面临一些挑战。其中最突出的一些是:
可用性有限:使用 AWS、GCP 或 Azure 等云服务访问硬件通常需要数周时间,而且流行的 GPU 模型通常不可用。
糟糕的选择: 用户在 GPU 硬件、位置、安全级别、延迟和其他选项方面几乎没有选择。
高成本:获得好的 GPU 非常昂贵,项目每月很容易花费数十万美元用于训练和推理。
io.net 通过聚合来自未充分利用的来源(例如独立数据中心、加密矿工以及 Filecoin、Render 等其他硬件网络)的 GPU 来解决这个问题。这些资源结合在去中心化物理基础设施网络 (DePIN) 中,使工程师能够在可访问、可定制、经济高效且易于实施的系统中获得大量按需计算能力。
借助 io.net,团队可以通过最少的调整在 GPU 网络上扩展工作负载。该系统处理编排、调度、容错和扩展,并支持各种任务,例如预处理、分布式训练、超参数调整、强化学习和模型服务。它旨在为 Python 工作负载提供通用计算服务,重点是为 AI/ML 工作负载提供服务。
io.net 产品专为四个核心功能而构建:
批量推理和模型服务:可以通过将训练模型的架构和权重导出到共享对象存储来并行对传入的批量数据执行推理。 io.net 允许机器学习团队跨分布式 GPU 网络构建推理和模型服务工作流程。
并行训练: CPU/GPU 内存限制和顺序处理工作流程在单个设备上训练模型时出现了巨大的瓶颈。 io.net 利用分布式计算库来编排和批量训练作业,以便可以使用数据和模型并行性在许多分布式设备上并行化。
并行超参数调整:超参数调整实验本质上是并行的,io.net 利用具有高级超参数调整的分布式计算库来检查最佳结果、优化调度并简单地指定搜索模式。
强化学习: io.net 使用开源强化学习库,该库支持生产级、高度分布式的 RL 工作负载以及一组简单的 API。
这一切都始于2023 年 2 月的 Solana 黑客马拉松和Solana Austin 黑客之家。