苹果删除了app内存还不减


苹果删除了app内存还不减  

量子位智库专访:探索大模型时代的算力与效率平衡之道

量子位 | 公众号 QbitAI

随着大模型争霸时代的到来,如何在保证性能的同时降低资源消耗,实现算力与效率的平衡,成为决定胜负的关键。端侧部署虽然是大模型落地的最后一公里,但因算力瓶颈而困难重重。在这一背景下,面壁智能和清华团队提出了元级稀疏激活技术——CFM(Configurable Foundation Models),走出了一条不同于MoE(Mixture of Experts)的路径。

一、CFM技术的核心优势

肖朝军表示,CFM是一种原生稀疏技术,利用模型本身就有的稀疏激活性质,相比MoE可以极大提升模型参数效率。参数效率是指模型单位参数的有效性,高的参数效率意味着在相同参数规模下,模型表现更好。在端侧应用中,参数效率尤为重要,因为手机内存有限,数效率可以节省内存,让大模型更好地在移动端部署。

二、CFM与MoE的区别

肖朝军提到,CFM与MoE的主要区别在于稀疏粒度。CFM强调元级别的稀疏,其颗粒度更细,在稀疏化上走得更极致。MoE的稀疏粒度是专家级别,而CFM的动态性也强于MoE,靠模型自己的激活函数来定义具体激活多少expert。任务难时可能需要激活多个expert,任务简单时则可能只激活少数。

三、模型架构之争

对于像Mamba、RWKV等计算复杂度为线性的非transformer架构模型带来的挑战,肖朝军认为transformer仍是当前效果最好的架构。目前非transformer架构的探索大多是为了提高效率,而不是效果。当前优化路径包括线性派和基于transformer但对KV cache做管理的方法。而CFM技术中的稀疏可能是FFN改进中非常重要的一点。

对于模型架构之间的优劣评价,确实很难有一个放之四海而皆准的评价方式。Transformer之所以取代RNN成为主流,是因为它能实现很大的规模并且用很多数据获得更好的效果。肖朝军认为,能否踩中下一波硬件是模型成功的关键因素之一。

四、小模型与智能未来

肖朝军表示目前小模型的大小没有明确定义,对于端侧应用来说可能在2-3B的范围算小模型。关于模型压缩极限,他们发表过相关论文但极限仍然不明确。对于智能的本质,他认为学习能力可能是核心,而抽象能力可能更接近智能本质。面壁智能的小模型在多种场景下都有广泛应用。

五、精度优化与小模型多模态

在精度优化方面,肖朝军表示精度降低后模型效果会变差,需要很多设计才能保证效果。对于FP8等低精度计算,只要硬件支持就可以尝试使用。小模型在多模态方面表现良好,差异没有那么大。不过多模态还没有一个统一的架构或者scaling law。

六、o1技术路线与超长文本推理

肖朝军认为o1技术路线主要是通过强化学习和高质量数据来提高模型能力,强调强化学习和推理的scaling。对于超长文本推理,这是目前重要的方向,也是下一波大家要突破的点。对于线性架构在长文本推理上的优势,目前没有实证研究证明纯RNN模型的推理能力,肖朝军认为类RNN的线性架构技术路线大概率会失败或者效果不佳。

七、大模型不可能三角问题

对于大模型不可能三角问题(大模型无法同时实现低计算复杂度、高性能和并行化),肖朝军表示这个问题依旧存在,Mamba等线性模型并没有真正解决。他提到人类思考也不是O(n)复杂度的,也许未来可以通过某种方式解决计算复杂度和效果之间的平衡问题,但目前还没有答案。他认为真正解决大模型不可能三角问题的关键可能在于如何更好地模拟和利用人脑的存储和计算机制。

  苹果删除了app内存还不减