让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

康奈尔大学发布在一张显卡上微调650亿参数大模子的框架:LLMTune

发布日期:2023-05-17 13:39    点击次数:205

尽管大模子的征询极度火热,开源模子也很丰富。关联词关于好多征询团队来说,基于开源模子进行特定界限的模子微调依然是一项本钱昂贵的行为。因此,大模子的微型化、低本钱锤真金不怕火等治安一直在快速演进。前天,Cornell Tech开源了LLMTune,这是一个不错在耗尽级显卡上微调大模子的框架,过程测试,不错在48G显存的显卡上微调4bit的650亿参数的LLaMA模子!本文来自DataLearner官方博客:康奈尔大学发布不错在一张耗尽级显卡上微调650亿参数界限大模子的框架:LLMTune | 数据学习者官方网站(Datalearner)

LLMTune简介LLMTune的使用治安1、装配LLMTune2、下载预锤真金不怕火死心文献3、下载数据集4、微调模子LLMTune微召回归大模子高效微召回归LLMTune简介

大谈话模子诚然才调很强,现在开源生态也很丰富,关联词在特定界限微调大模子依然需要大规格的显卡。举例,清华大学发布的ChatGLM-6B,参数界限60亿,在莫得量化的情况下微调需要14GB显存(parameter-efficient fine-tuning,PEFT)。

在莫得任何优化的前提下,每10亿参数的全精度(32bit)模子载入到显存中就需要4GB,而int8量化后也需要1GB显存。而现在开源最强的模子LLaMA,其最高参数维650亿界限,全精度模子载入就需要260GB,显着照旧超出了大部分东谈主的硬件水平。更不要说对模子进行微调(微调需要锤真金不怕火更新参数,推理只需要前向计较即可,因此,微调需要更多的显存才能复旧)。

本次,Cornell Tech开源的LLMTune即是为了裁汰大模子微调难度所提倡的一种处理决议。关于650亿参数的LLaMA模子微调仅需要40GB显存即可。

LLMTune在底层兑现了LoRA算法,该算法使用GPTQ压缩LLM,需要兑现量化版块LLM的反向传递。LLMTune的功能包括:

对多个LLM的模块化复旧(现在复旧MetaAI开源的2个模子,LLaMA和OPT)复旧平庸的耗尽级NVIDIA的GPU显卡(包括RTX系列、A系列、GTX系列等)代码库轻微且易于使用(扫数源代码仅64k大小)

Cornell Tech开源LLMTune的最终观点是为了提供一个不错肤浅微调大模子的平台,并促进LLM关系的征询。

LLMTune的使用治安

LLMTune底层兑现了LoRA算法,它依赖的库也很少,主要包括:

平定,LLMTune现在仅复旧在NVIDIA显卡上的微调,是以上述PyTorch也需要cuda版块才不错使用。具体的LLMTune条件如下:

使用治安也很肤浅,领先从官方GitHub下载LLMTune代码,然后初始如下2个敕令装配:

1、装配LLMTunepip install -r requirements.txt # 装配LLMTune依赖的库pip setup.py install # 装配LLMTune2、下载预锤真金不怕火死心文献

平定,LLMTune现在复旧量化版块的模子微调,不错按照如下敕令下载LLaMA的4bit版块预锤真金不怕火死心。

wget https://huggingface.co/kuleshov/llama-65b-4bit/resolve/main/llama-65b-4bit.pt3、下载数据集wget https://huggingface.co/datasets/kuleshov/alpaca-data/resolve/main/dataset.json4、微调模子# 先创建一个微调死心目次mkdir alpaca-adapter-folder-65b-4bit# 然后初始如下敕令进行微调llmtune finetune --model llama-65b-4bit --weights llama-65b-4bit.pt --adapter alpaca-adapter-folder-65b-4bit --dataset dataset.json

接下来恭候微调收尾即可~你也不错写一个py文献来微调模子:

import llmtune.executor as llmtunellm, llm_config = llmtune.load_llm('llama-7b-4bit', '/path/to/llama-7b-4bit.pt')output = llmtune.generate(llm,llm_config,prompt=\"the pyramids were built by\",min_length=10,max_length=50,top_p=0.95,temperature=0.8,print(output)LLMTune微召回归

现在,方式给出了LLMTune复旧的模子界限和所需要的显存大小:

改日,LLMTune还将赓续增多如下功能:

复旧径直从HuggingFace hub中径直载入模子开箱即用地复旧更多的LLM接口优化,如自动住手等自动量化剧本大模子高效微召回归

LLMTune的出现让咱们看到了在耗尽级显卡上进行大模子微调的可能。除了它除外也有一些大模子的微调责任在进行中。其中相比值得期待的是华盛顿大学的博士生Tim Dettmers正在进行的责任。与LLMTune同样,他们行将发表的大模子微调时间,QLoRA正在招募测试,不错用48GB显存微调650亿参数界限大模子。按照他的样式,他们作念的责任包括三部分:

4-bit Normal Float:一个信的用于压缩的数据类型Paged优化器:内存优化时间双量化:量化后再量化

不外,具体的时间细节还未公布,现在仅仅招募测试东谈主员提前测试时间,咱们保握密切眷注。

从近期的发展看,大模子的微调本钱连续不才降,改日单张显卡锤真金不怕火650亿参数模子应该是不错达到的。咱们后续将测试这种微调时间的效能。