猫眼影戏
猫眼影戏
高博
手机检察
猫眼影戏记者 王三春 报道P6F9A2Y5R3B1T0V4X8W
选自oxen.ai 作者:Greg Schoeninger 编译:陈陈、泽南 RTX 3080 移动版能训练哪种大模型?本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了名贵的指导。 自 DeepSeek-R1 宣布以来,群组相对战略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。 GRPO 是一种在线学习算法(online learning algorithm),它通过使用训练历程中由训练模型自身生成的数据来进行迭代革新。GRPO 的目标是最大化生成补全(completions)的优势函数(advantage),同时确保模型坚持在参考战略(reference policy)四周。 本文的目的是帮你节省一些时间,让你凭据硬件预算选择合适的模型巨细。在开始微调时,你必须做出的重要决定是选择模型大。约澳闶侵葱型耆⒌髡站刹问咝⒌鳎≒EFT)。 文章作者来自 AI 公司 Oxen.ai 的 CEO Greg Schoeninger。 原文链接:https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor 作者体现,他发明 trl 库中已经有一个易于使用的 GRPO 实现,便立刻开始了训练,使用的硬件是配备了 16GB 显存的 Nvidia GeForce RTX 3080 的小型条记本电脑。正如各人可能遇到的问题,作者发明示例代码中的参数设置导致了一个巨大的显存缺乏(OOM,out of memory )过失。 torchOutOfMemoryErrorCUDAoutof memoryTriedto allocate1.90GiBGPU0has a total capacity ofGiBof which1.28GiBisfreeIncludingnonPyTorchmemorythisprocess hasGiBmemoryinuseOfthe allocated memoryGiBisallocatedbyPyTorchand2.41GiBisreservedbyPyTorchbut unallocatedIfreserved but unallocated memoryislargetrysetting PYTORCH_CUDA_ALLOC_CONFexpandable_segmentsTrueto avoid fragmentationSeedocumentationforMemoryManagement//pytorch.org/docs/stable/notes/cuda.html#environment-variables) 实际使用情况 作者体现,他们进行了一系列实验,以确定训练种种巨细的模型所需的显存(VRAM)要求。参数数量从 5 亿到 140 亿不等,他们比较了权重的完全微调与参数高效微调(使用 LoRA),所有训练运行都在英伟达 H100 上完成,因此这里的 OOM 意味着 >80GB 的 VRAM。 在表格中,你可以找到 GSM8K 数据集上训练的前 100 步中的峰值内存使用情况。用于实验的模型是: 所有实验均使用 Shadeform 的 GPU 市场完成,因此每次实验只需要花费几美元 H100。 实验结果标明,内存需求随着模型巨细和训练方法的差别而显著变革。例如,全参数微调比 PEFT 需要更多的内存。 为什么 GRPO 对内存需求较高 这要从 GRPO 的原理说起,这是它的流程图。 GRPO 对内存需求较高的原因在于,其内部涉及多个模型,并且在训练数据中每个盘问会爆发多个输出。上图中的战略模型、参考模型和奖励模型各自都是一个需要进行推理的 LLM。(尽管从技术上讲,奖励模型可能不需要参数化,可以只是一个 Python 函数或正则表达式,但不影响 GRPO 对内存的高需求。) 为什么 8-Bit 优化和梯度检查点有助于减少内存占用? 通常来讲,训练一个大型语言模型需要在内存中存储三种主要类型的信息:模型参数、模型学习所需的梯度、优化器的跟踪数据。 对上述内容我们可以这样理解:如果模型的参数占用了 X 的空间,那么梯度也会占用约莫相同的空间。然后,像 AdamW 这样的优化器需要更多的空间,因为它们就像一个纪录员,跟踪最近的更新历史,以便更好地决定未来的优化。 为了减轻这种内存担负,通常接纳两种技术: 首先,可以使用像 AdamW 这样的 8-bit 优化器版本,它们能更高效地存储跟踪数据,同时仍坚持良好的性能 —— 类似于压缩照片可以节省空间,同时保存大部分图像质量;其次,使用梯度检查点技术,这就像在训练历程中拍摄快照,而不是纪录所有内容。虽然这会使逊з度减慢约 20-30%,但它显著减少了内存使用。 结合这些技术,纵然对 GPU 资源有限的人来说,也能够训练更大的模型。 代码示例 像 trl 这样的库已经开始支持 GRPO,使得微调由 transformers 组成的 LLM 变得很是简单。代码也很是简洁,只需将训练器替换为 GRPOTrainer 并界说一些奖励即可。GRPO 的最小代码量约莫只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 这样的小型模型和像 openai/GSM8K 这样的数据集,可以非?焖俚仄舳。 trl 项目地点:https://github.com/huggingface/trl?ref=ghost.oxen.ai importtorchfromdatasetsimportload_datasetDatasetfromtransformersimportAutoTokenizerAutoModelForCausalLMfromtrlimportGRPOConfigGRPOTrainerimportreSYSTEM_PROMPTRespond in the following format:defextract_hash_answertextstrstrNoneif"####"notintextreturnNonereturntextsplit"####"1stripdefget_gsm8k_questionssplit"train"Datasetdataload_dataset'openai/gsm8k''main'splitdatadatamaplambda'prompt''role''system''content'SYSTEM_PROMPT},'role''user''content''question'],'answer'extract_hash_answer'answer'returndatadefextract_xml_answertextstrstranswertextsplit1answeranswersplit""0returnanswerstripdefformat_reward_funccompletionskwargslistfloat"""Reward function that checks if the completion has a specific format."""patternr"^\n\n$"\n.*?\n\n.*?\nresponsescompletion0"content"forcompletionincompletionsmatchesrematchpatternrforrinresponsesreturn0.5ifmatchelse0.0formatchinmatchesdefaccuracy_reward_funcpromptscompletionsanswerkwargslistfloat"""Reward function that extracts the answer from the xml tags and compares it to the correct answer."""responsescompletion0'content'forcompletionincompletionsextracted_responsesextract_xml_answerrforrinresponsesreturn2.0ifraelse0.0forrainzipextracted_responsesanswerdefmaindatasetget_gsm8k_questionsmodel_name"meta-llama/Llama-3.2-1B-Instruct"modelAutoModelForCausalLMfrom_pretrainedmodel_nametorch_dtypetorchbfloat16attn_implementation"flash_attention_2"device_mapNoneto"cuda"tokenizerAutoTokenizerfrom_pretrainedmodel_nametokenizerpad_tokentokenizereos_tokentraining_argsGRPOConfigoutput_dir"output"learning_rate5e-6adam_beta10.9adam_beta20.99weight_decay0.1warmup_ratio0.1lr_scheduler_type'cosine'logging_steps1bf16Trueper_device_train_batch_size1gradient_accumulation_steps4num_generations4max_prompt_length256max_completion_length786num_train_epochs1save_steps100save_total_limit1max_grad_norm0.1log_on_each_nodeFalsetrainerGRPOTrainermodelmodelprocessing_classtokenizerreward_funcsformat_reward_funcaccuracy_reward_func],argstraining_argstrain_datasetdatasettrainertrainif__name__"__main__"main Num Generations 有什么用 Num Generations 是一个超参数,它决定了我们将在训练数据中对每个盘问采样几多个补全。然而,这会显著增加 VRAM 的消耗。 目前有一个开放的 GitHub 问题,可能会资助解决内存瓶颈问题,可以参考如下链接 地点:https://github.com/huggingface/trl/issues/2709?ref=ghost.oxen.ai 关于 num_completions=8,16,64 (DeepSeekMath 论文使用的 64),作者体现,不必再次盘算上述所有值,而是使用了 1B 参数模型进行了测试,以显示内存增长。不过,作者照旧建议各人在内存瓶颈获得修复之前使用 num_generations=4,也能获得不错的性能。 影响 VRAM 的一些因素 要对所有影响显存(VRAM)使用的因素进行全面的超参数验证,需要进行大宗的实验。简单起见,这里只指出了需要注意的设置,以及实验中使用的具体数值。 batch_size=1,由于 GRPO 为每个盘问生成多个响应,batch size 会迅速失控。gradient_accumulation_steps=4,优化器是另一个占用大宗 VRAM 的地方。此参数决定了我们将存储的梯度以资助优化器进行其「爬山」历程。num_completions=4,DeepSeekMath 论文中使用了 64。这完全凌驾了有些人的盘算预算。max_prompt_length=256,如果你想训练模型拥有更大上下文的推理能力,将不得不增加 VRAM。GSM8K 的提示相对较。屎洗瞬馐。max_completion_length=786,同样,由于盘算注意力的内存有限,推理链在这里受到限制。上下文或生成的 token 越多,需要的内存就越大。LoRA target_modules=["q_proj", "k_proj", "o_proj", "up_proj", "down_proj"] 在这方面可以实验几种差别的迭代。target_modules="all-linear" 是一种流行的方法,可以从你的 LoRA 中挤出最多的性能(就准确性而言)。 对 VRAM 使用的大概估算 如果你正在使用 FP16 精度进行训练,以下是一些简单的估算要领,可以资助你了解内存主要用在了哪些地方: 模型参数:每个参数占用 2 字节。参考模型参数:每个参数占用 2 字节。梯度:每个参数占用 2 字节。优化器状态:每个参数占用 8 字节。8 位优化器:每个参数占用 4 字节。PEFT:有助于减少梯度的显存占用。 最后是关于准确率的。作者完成了一个 10 亿参数的 Llama 3.2 模型的完整训练。在应用 GRPO 之前,该模型在保存测试集上抵达了约 19% 的准确率,而在经过一个训练周期后,模型的准确率飙升至约 40.5%。虽然这离 SOTA 水平还差得很远,但这展示了 GRPO 的强大潜力。
??时事1:性爱黄免费网站
??02月14日,关注“零糖社交”:适度保持冷亲密,回归“为己社交”,
大殿上,那名强者跪在地上,不敢抬头,叩拜在那里,道:“是的,连续了两年,疑似是惊世的神物出土了。”
,色涩王国综合首页。??02月14日,汽车以旧换新信息平台累计登记注册用户数超110万,
首先是凭诚信立足。
,日韩www 影院,黄色视频A级视频大片,免费看一级黄色视频。??时事2:成版人性视频网站
??02月14日,观沧海|“机遇湾区,机遇港澳”: 湾区优质生活圈加速形成,
已往的一学年是令人感动的精彩一学年,我们的学校取得了巨大结果,获得了更多的荣誉,特别要提的是我们高三有24名同学被南京大学、四川大学、东南大学、南京航空航天大学、南京理工大学等985和211工程国家重点大学录。370多名同学接到本科第二批院校的录取通知书,90%以上高三结业生即将走进本科院校继续深造,这是全校师生刻苦钻研、勤奋学习的结果,更是老师们用心血和汗水为同学们铺垫乐成之路的结果,这些结果是实验中学的庆幸,也是同学们的自豪!它必将鼓舞我们全校师生满怀信心地迎接新学期的开始。
,八戒八戒免费影院,欧美日韩国产精品区,大圣棋牌娱乐老版本。??02月14日,【在希望的田野上】各地多举措推进粮食稳产增产,
在红色的长廊上,有两圈弧长,在绿色园地上,有你的明亮,画出两圈生命 的轨迹,夺得无数由衷的惊喜。迈出纷歧样的生活旋律,奏出差别凡响的歌曲!
,在线精品国精品国产脚Y,咪咪爱全球首播免费在线,91久久精品无码一区二区图。??时事3:欧美性爱肛交视频
??02月14日,【新春纪事】佛山连杜打造“醉”美桃花源 当地“桃花王”传授选花秘诀,
“那对伉俪若是死在貔貅的爪下,或者因其他原因殒落在外面,一切就完美无瑕了。”她轻声自语,嘴角有一丝冷意。
,茄子视频污app无限观看,在大巴车最后一排进入,搡老女人老妇女老熟。??02月14日,2024“一带一路”瓜菜产业发展大会在新疆喀什开幕,
本文将围绕京东金条逾期如何协商这一问题展开讨论,包括逾期原因、协商方法、注意事项等方面的内容,希望能资助各人解决相关问题。 1. 京东金条逾期的原因是什么? 京东金条逾期主要是由于借款人未准时还款导致的?赡苁且蛭款人资金周转不畅,或者是由于其他原因导致无法准时偿还借款。在借款历程中,借款...
??时事4:日本在线视频中文
??02月14日,“老外中医”迪亚拉:中医药在非洲知晓率不断提高,
自这一日后,石昊开始了艰苦的修行,偶尔会获得柳树的提点,认真锤炼肉身,强壮筋骨。
,桃乃木香奈与恶心,抖肾app下载,久久精品人人做人人综合试看。??02月14日,消息人士:叙军在大马士革击落两架“敌方”无人机,
第四、提高效劳群众、为民办实事的能力。 农村下层干部直接和农民群众打交道,官虽然不大,但其作用和能量却不可低估。群众始终把我们当成党和政府形象的化身。农村下层干部认真为群众办实事,遇事同群众商量,干部的形象就好,党在农民群众中的威望就高。反之,就会直接影响党和政府的形象。我们要切实解放思想,转变看法,自觉地从那些不适时宜的看法、做法和体制的束缚中解放出来,破除不思进取、小富即安的思想,树立强烈的生长意识;破除墨守陈规、因循守旧的思想,树立强烈的立异意识;破除关闭守旧、固步自封的思想,树立强烈的开放意识。凭据县委总体生长目标和生长思路,把主要精力放在实施 “ 六大工程 ” 、 “ 三大战役 ” ,搞活商贸流通,培育新的经济增长点,增加农民的收入上来。要通过提高效劳水平,资助群众解决好制约生长的种种问题,为群众提供良好的产前、产中、产后效劳。特别要结合落实中央四个长效机制文件,牢固先进性教育结果,落实效劳允许制,开展种种便民利民运动,切实为群众办实事,做好事,解决好群众最直接、反应最强烈的热点难点问题,资助解决一家一户难以解决的问题,努力为群众生长经济排忧解难,推动农村经济生长,实现配合富足。
,人㖭上面2人㖭图故事,app污导航下载,kTv少爷直男小鲜肉直播。责编:赵海
审核:闵行
责编:宋杨
Copyright (C) 2001-2025 Dzwww 鲁ICP备09023866号-1