1. 首页
  2. Meta

A16Z:面对天价算力,AI开发者如何突破困境?

原文由Guido Appenzeller, Matt Bornstein, and Martin Casado撰写 

EMC爱好者编译整理

天价模型:高成本与高时间

  • 底层的算法问题在计算上非常复杂且困难,因而AI的基础设施本身就很昂贵。

  • 不过对于Transformer来说,人们可以估计特定大小的模型将消耗多少计算和内存。因此,选择合适的硬件成为下一个考虑因素。

  • 按照传统CPU的速度,在不利用任何并行架构的情况下,执行单个 GPT-3 的推理操作将需要花费 32 小时。这种速度显然是不行的。

  • 生成式 AI 需要对现有的 AI 基础设施进行大量投资。训练像 GPT-3 这样的模型,是人类有史以来计算量最大的任务之一。虽然GPU越来越快,开发者们也找到了优化训练的方法,但AI的快速扩张抵消了这两种影响。

AI基础设施:自己建造还是花钱买?

内部自建&外部设施

  • 像OpenAI、Hugging Face、和Replica这样的托管模型服务,允许创始人快速搜索产品与市场的契合度,无需管理底层基础设施或模型。

  • 这些服务的定价是基于消费的,因此它通常也比单独搭建运行的基础设施便宜。

  • 另一方面,训练新基础模型或构建垂直集成的AI初创公司,无法避免直接在GPU上运行自己的模型。因为模型实际上是产品,团队正在寻找“模型-市场契合度”;控制训练和推理才能实现某些功/或大规模降低边际成本。无论哪种方式,管理基础架构都可以成为竞争优势的来源。

云VS数据中心

  • 大多数情况下,云是最适合构建AI基础设施的地方。

  • 例外情况:

(1)运营规模非常大的情况下,运行自己的数据中心可能更划算。每个地方或许价格不一,但开支通常> 5000 万美元/年。

(2)云提供商无法提供您需要的特定硬件,例如未广泛使用的 GPU 类型,以及异常的内存、存储或网络要求。

如何选择云服务提供商?

  • 价格:特定硬件上的算力是一种商品。虽然我们期望价格统一,但事实并非如此。在价格规模的顶端,大型公共云根据品牌声誉、经过验证的可靠性以及管理各种工作负载的需求收取溢价。较小的专业AI提供商能提供较低的价格,要么通过运行专用数据中心(例如Coreweave)或套利其他云(例如Lambda Labs)。

    - 星际资讯

    免责声明:投资有风险,入市须谨慎。本资讯不作为投资建议。

下一篇:没有了
« 上一篇
上一篇:三菱日联金融集团旗下稳定币平台Progmat将于2023年发行日元稳定币
下一篇 »

相关推荐