Skip to content

这个名字将"海豚"和"生成式语言模型"结合在一起,同时也暗示着这个模型能够像海豚一样聪明、好奇、灵活地创造新的内容和语言。

Notifications You must be signed in to change notification settings

minghsuanwu/DolphinGen

Repository files navigation

一个支持ChatLLM模型训练的公开框架项目

Python 3.8+ Code style: black

这个项目旨在使用Stanford Alpaca构建统一的ChatLLM模型训练框架,支持的模型有:

  • ChatGLM
  • Bloom (开发中)
  • OPT (开发中)
  • 其他

作者

  • 赵健博 @ 梧桐车联/长安汽车, 王路宝 @ 梧桐车联/长安汽车, 郭苏州 @ 梧桐车联/长安汽车 and 吴明轩 @ 梧桐车联/长安汽车

概述

该项目将使用Stanford Alpaca的数据生成方法,训练市场上流行的ChatLLM模型。

教程

ChatGLM-6B

在使用项目前,需要在huggingface中下载模型,并使用项目中📁DolphinGen/pretraining/chatglm-6b/modeling_chatglm.py文件替换下载的modeling_chatglm.py文件。
该项目中我们使用gradient_checkpointing对模型做了优化,使得ChatLLM模型能够在单卡GTX3090设备中运行。

环境

accelerate==0.16.0
protobuf==3.20.0
peft==0.2.0
transformers=4.27.3
torch==1.13.1+cu116

数据

data目录为训练数据保存位置,可根据示例数据zh_seed_tasks.json生成自己个数据。

训练

script目录为项目运行的脚本存放位置。执行script/train_script.sh脚本即可运行模型。

bash script/train_script.sh

About

这个名字将"海豚"和"生成式语言模型"结合在一起,同时也暗示着这个模型能够像海豚一样聪明、好奇、灵活地创造新的内容和语言。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published