AWS 與 Cerebras 合作,將專用 AI 推論硬體整合到 Amazon Bedrock 中,以加速企業的 LLM 效能。
此次合作使 Cerebras 的專用高效能 AI 硬體能夠透過 AWS 生態系統直接存取。它為大型模型的推論瓶頸提供了實用的解決方案,可能降低企業大規模部署生成式 AI 應用程式的延遲和成本。
該解決方案將獨家透過 Amazon Bedrock 提供,以加速 LLM 效能
這是 Cerebras 的專用推論架構首次在主要雲端平台上提供
AWS 與 Cerebras 整合其硬體,提供分解式 AI 推論解決方案
該服務將提示處理(預填充)與代幣生成(解碼)分離,分別由 AWS Trainium 和 Cerebras CS-3 系統處理
該解決方案將獨家透過 Amazon Bedrock 提供,以加速 LLM 效能
亞馬遜網路服務(AWS)與 Cerebras Systems 合作,為生成式 AI 和大型語言模型(LLM)工作負載提供高速推論解決方案。此次合作將 Cerebras 的 CS-3 系統與 AWS Trainium 伺服器和 Elastic Fabric Adapter(EFA)網路整合,並透過 Amazon Bedrock 提供。該解決方案採用「推論分解」技術,將處理過程分為用於提示處理的「預填充」階段和用於輸出生成的「解碼」階段。AWS Trainium 負責處理計算密集型的預填充,而 Cerebras CS-3 則專注於記憶體頻寬密集型的解碼階段。這種專門化的架構旨在加速推論效能,解決即時 AI 應用中的常見瓶頸。該服務將於未來幾個月內推出,這標誌著 Cerebras 的分解式推論首次在雲端平台上提供,且獨家透過 Amazon Bedrock 供應。此次合作旨在為企業在其 AWS 環境中提供增強的 AI 推論任務效能。
Sign in to save notes on signals.
登录