关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

苹果的最新研究将有限内存推理速度提高25倍

发布时间:2023-12-25 11:09:43

站长之家(ChinaZ.com)12月21日 消息:近年来,大型语言模型(LLMs)在自然语言处理任务中表现出色,但对计算和内存的高需求对内存有限的设备构成了挑战。

本文提出了一种高效运行LLMS的方法,将模型参数存储在闪存中,并在推断过程中按需加载到DRAM。

image.png

论文地址:https://arxiv.org/pdf/2312.11514.pdf

该方法包括构建与闪存内存行为协调的推理成本模型,通过减少从闪存中传输的数据量,并以更大、更连续的块读取数据进行优化。

在这个框架中,引入了两种关键技术:窗口策略通过重用以前激活的神经元来减少数据传输,行列捆绑技术增加了从闪存中读取的数据块的大小,以适应闪存的顺序数据访问。

与简单的加载方法相比,CPU和GPU的推断速度分别提高了4-5倍和20-25倍,使这两种方法能够运行比可用DRAM容量大两倍的模型。同时,结合稀疏感知、上下文自适应加载和硬件导向设计,为LLMS推断在内存有限的设备上开辟了新的可能性。


/template/Home/Zkeys/PC/Static