ubuntu安装conda
ChatGPT等大语言模型拥有卓越的理解能力和与人类相似的文本生成能力。目前,像OPT、LLAMA、Alpaca、Vicuna等开源大语言模型备受关注。本文将重点介绍如何在单GPU卡上运行Vicuna 13b模型。
Vicuna是什么?
Vicuna是一个拥有高达130亿参数的LLM(大型语言模型)。它是由加州大学伯克利分校、CMU和斯坦福团队开发的,并在LLAMA模型的基础上进行微调。Vicuna使用70K ShareGPT的数据进行训练,其效果经过GPT-4打分评估,达到了OpenAI ChatGPT的90%效果。有关Vicuna的更多信息,请访问其官方网站:[vicuna.。](vicuna.%E3%80%82)
为何需要量化GPT模型?
运行Vicuna-13B模型需要大约28GB的GPU显存,基于fp16精度。为了降低显存占用,我们采用量化技术。最新研究论文GPTQ显示,对于参数超过10B的模型,使用4位或3位的GPTQ可以达到与fp16相当的精度。大模型的参数量会产生较长的时延,生成模型的token生成速度受限于显存带宽。量化模型并不会降低生成延迟。有关GPTQ的详细信息,请参见其研究论文([/abs/2210.17323)和其github仓库(/IST-DASLab/gptq)。](/abs/2210.17323%EF%BC%89%E5%92%8C%E5%85%B6github%E4%BB%93%E5%BA%93%EF%BC%88/IST-DASLab/gptq%EF%BC%89%E3%80%82)
如何在AMD GPU上运行Vicuna 13b模型?
为了在AMD GPU上顺利运行Vicuna 13B模型,我们需要借助ROCm这一开源软件平台,它为深度学习和高性能计算应用提供了AMD GPU加速。
接下来,让我们逐步指导如何在带有ROCm的AMD GPU上设置和运行Vicuna 13b模型。
确保您的系统满足以下要求:
1. 拥有支持ROCm的AMD GPU
2. 使用Linux操作系统,最好是Ubuntu 18.04或20.04
3. 安装Conda或Docker环境
4. Python版本要求为3.6或更高
ROCm安装及Docker容器设置:
一、ROCm安装:
1. 更新apt包管理器并升级系统。
2. 从AMD官方网站下载并安装ROCm软件包。
3. 重启计算机以完成安装。
二、验证ROCm安装是否成功。
三、拉取Docker镜像并运行Docker容器,为Vicuna模型提供一个合适的环境。
模型量化和模型推理:
一、下载量化后的Vicuna-13b模型。
二、使用AMD GPU运行Vicuna 13B GPTQ模型。这一阶段涉及编译并链接相关Python模块。
搭建Web API使用量化后的Vicuna模型:
对比Vicuna fp16与量化后4bit量化模型的性能:
测试集准确率(PPL:困惑度)对比;
测试集时延(Token,ms)对比。
感谢您的阅读!希望本文能帮助您在单GPU卡上成功运行Vicuna 13b模型,并了解量化技术在其中的作用。