新闻

PPI学术讲座1017 | 端侧大模型稀疏推理框架PowerInfer

发布时间:2024-10-16浏览次数:10

糜泽羽

间:10月17期四14:15

点:江湾校区交叉二号楼A2003

题目:端侧大模型稀疏推理框架PowerInfer

摘要

  本报告将介绍PowerInfer,这是一个在个人电脑或智能手机等端侧设备进行大型语言模型快速推理的框架。PowerInfer的设计核心是利用大语言模型推理中固有的稀疏激活和高局部性。PowerInfer利用这些特性设计了一个XPU混合推理引擎,从而显著减少内存和内存需求以及数据传输。PowerInfer进一步整合了自适应预测器和神经元感知的稀疏运算符,优化了神经元激活的效率和计算稀疏性。在个人电脑场景,PowerInfer可以在单个NVIDIA RTX 4090 GPU上运行多种尺寸的大语言模型(包括175B模型),在某些模型上的性能最高可实现11.69倍的加速。在智能手机场景,PowerInfer能以11.68 tokens/s的速度推理Mixtral 8x7B模型,相较于llama.cpp实现了21.2倍的加速。



嘉宾简介

糜泽羽,上海交通大学副教授,博士生导师,主要从事大模型端侧系统,操作系统和系统虚拟化研究,主持国家自然科学基金面上项目、青年基金项目等国家级科研项目。在SOSP/OSDI/ASPLOS/EuroSys /USENIX ATC等操作系统领域会议和期刊发表二十余篇学术论文。


位:

                据基础系统软件研究所

人:鲁云萍 luyping@fudan.edu.cn