硬件系统包括什么
AI推理市场正在经历前所未有的变革。传闻中,一款名为LPU的专用推理芯片正在改变英伟达在市场上的主导地位。这款芯片,由Groq公司研发,已经在Llama 2-70B推理任务中展现出超越英伟达H100的实力。
近期,Deepseek公司的创始人Sanjeev Khosla透露,使用Groq的LPU芯片进行AI推理时,每token的推理成本大幅降低至0.0003美元。这一突破性的成本降低,使得Deepseek在AI行业内的地位得到了显著提升。不仅如此,随着企业AI推理规模的不断扩大,这一成本还将持续下降。
Deepseek公司使用的Llama 2模型是Meta公司发布的Llama 2模型中的最大版本,其模型大小达到了70B参数。Deepseek已经将这一模型成功部署到配置了2048个Groq处理器的LPU硬件上。据Deepseek和Groq的计算,训练Llama 2模型的成本仅为每token 0.0003美元,一旦完成与Groq LPU的深度集成,这一成本有望进一步降低至每token的0.00001美元。这意味着企业在进行大规模AI推理时,算力成本将不再是主要关注点。
值得一提的是,LPU的静态编译架构意味着它可以通过编译进行优化,使GPU效能达到92%以上,远超当前GPU的60%效能。这种提升不仅仅是数字的简单增加,更代表着在AI行业竞争日益激烈的背景下,对于CPU、GPU和FPGA等现有架构的挑战和革新。尤其是英伟达这样的巨头,它们在新兴的AI市场中面临着来自LPU的挑战。
自Google在2016年推出TPU专用加速架构以来,AI硬件和软件的发展进入了一个新阶段。最新的Groq LPU在性能上已经超越了英伟达的H100,实现了每秒近300 token的推理能力,相当于在性能上提高了十倍。这意味着各种深度学习模型都可以与Groq LPU紧密结合,实现更高效、更廉价的AI推理。
深度学习模型的规模不断扩大,对硬件性能的要求也越来越高。为了满足这一需求,AI硬件行业正在尝试引入高带宽内存HBM。由于成本和应用场景的特殊需求,高带宽存储器HBM变得稀缺。而LPU架构的出现似乎能够解决这一问题,它采用SRAM作为存储器,降低了成本并提高了内存带宽。这意味着未来可能实现在单个机器上模拟多个大型语言模型,使语言模型在日常生活中真正实用化。
从Groq公司的信息来看,该公司自创业以来已经推出了两代LPU产品。其中第二代LPUs包含了256个TPUs,显示出强大的性能。每台Groq LPU硬件都可以作为一个超级计算机,通过网络以MFD(节点)的形式互连,形成超级计算机集群。这种灵活的连接方式使得AI系统可以根据需求进行扩展或收缩,满足了大规模分布式GPT系统的需求。
随着GPT系统的广泛应用和市场需求的大幅增长,LPU等先进AI硬件的发展成为了行业关注的焦点。GPT系统的应用领域包括自然语言处理、对话系统等,其强大的性能和灵活性使得这些系统能够同时服务于数百万人,满足巨大的市场需求。而LPU的出现,为GPT系统的发展提供了强大的硬件支持,进一步推动了AI行业的发展。