当前位置: 首页 > news >正文

dw做的网站如何上传云服务器中国今日新闻

dw做的网站如何上传云服务器,中国今日新闻,wordpress 站外搜索,中国顺德手机网站设计本次DPO训练采用TRL的方式来进行训练 Huggingface TRL是一个基于peft的库,它可以让RL步骤变得更灵活、简单,你可以使用这个算法finetune一个模型去生成积极的评论、减少毒性等等。 本次进行DPO的模型是一个500M的GPT-2,目的是训练快&#x…

本次DPO训练采用TRL的方式来进行训练

Huggingface TRL是一个基于peft的库,它可以让RL步骤变得更灵活、简单,你可以使用这个算法finetune一个模型去生成积极的评论、减少毒性等等。

本次进行DPO的模型是一个500M的GPT-2,目的是训练快,少占资源,快速看到结果。

下载Tokenizer:

from transformers import AutoTokenizer

AutoTokenizer.from_pretrained('gpt2').save_pretrained('tokenizer/gpt2')

  下载Datasets:

from datasets import load_dataset

load_dataset('b-mc2/sql-create-context').save_to_disk(

'dataset/b-mc2/sql-create-context')

下载Model:

from transformers import AutoModelForCausalLM

AutoModelForCausalLM.from_pretrained('gpt2').save_pretrained('model/gpt2')

图片

图 下载Tokenizer,model,数据

首先我们看一下原始数据集,原始数据集的构成分为3部分,一个是question,代表想提出的问题,一个是answer代表回答,第三部分是context代表参考的表结构。

图片

图 原始数据集

图片

图 数据集样例

实际数据样例,我们进一步规范了三种数据类型:

·第一个prompt,包含了context表结构和问题。

·第二个chose,表示希望训练之后的模型按着什么范式来回答问题。

·第三个reject,表示不希望用什么方式来回答,这里就留空了,代表隐式确认,如果有条件也可以整理不喜欢的回答范式。

这个训练的目的就是不管回答什么问题,都要用SQL语句的形式来回答,强调一种受欢迎回答的范式,这也是RLHF/DPO训练的主要目的。

下面开始训练部分,首先load tokenizer。

图片

图8-9 load tokenizer

按照需求来整理数据格式。

图片

图 整理数据格式

读取模型。

from transformers import AutoTokenizer

import random

import torch

tokenizer = AutoTokenizer.from_pretrained('/data2/DPO/tokenizer/gpt2')

tokenizer.pad_token_id = 0

tokenizer

from transformers import AutoModelForCausalLM

model_dpo = AutoModelForCausalLM.from_pretrained('/data2/DPO/model/gpt2').to('cuda')

model_dpo_ref = AutoModelForCausalLM.from_pretrained('/data2/DPO/model/gpt2').to('cuda')

先做个测试看看模型目前是怎么回答的。

图片

图 训练前的回答方式

如上图所示,很显然这个回答方式不是我们要求的方式,我们需要它把问题都按着SQL语句来进行回答。

最后一步就是正式训练了。

图片

图片

图片

如上图所示,随着训练的开展,模型回复对话的方式,基本就越来越向着正规SQL的方向演进。

这就是DPO训练所达成的目的。

图片

也没有多废资源,我是点auto-map技能点了,正常也就一张A100够了。

http://www.shuangfujiaoyu.com/news/47630.html

相关文章:

  • wix和wordpress淘宝优化关键词的步骤
  • 酒店网站建设功能app推广软文范文
  • 南昌旅游网站建设方案中国最新军事新闻直播
  • 域名解析错误怎么解决网站更新seo
  • 做网站这么便宜可以吗企业网站是什么
  • 个人网站经营 合法么会计培训班的费用是多少
  • 佛山做网站找哪家好网站做seo教程
  • 网站建设 辉煌电商百度热词
  • 在家做兼职哪个网站靠谱吗2022拉人头最暴利的app
  • 深圳响应式网站建设百度推广年费多少钱
  • 经典网站首页极速建站网站模板
  • 公司设计网站有哪些西安百度推广优化托管
  • 郑州做网站锐做推广哪个平台效果好
  • 去国外政府网站做轮胎认证手机域名访问网站怎么进入
  • 新北区城乡建设局网站大连企业黄页电话
  • 软件开发流程图怎么做seo专业培训中心
  • 1核2g+做网站北京整站线上推广优化
  • 昆明网站建设首选百度指数的功能
  • 品牌策划公司收费百度百科优化排名
  • 做互助盘网站公司企业员工培训
  • 企业网站建设合同长尾词挖掘工具爱站网
  • b2b2c网站建设方案web网页制作成品免费
  • 域名备案成功如何做网站优化器
  • 一级a做爰片i免费网站找做网站的公司
  • 广西两学一做考试网站关键词搜索次数查询
  • 广州微网站建设机构站长工具seo综合查询问题
  • 开发网站如何赚钱爱站网长尾关键词搜索
  • 外贸网站运营怎么做网站排名优化快速
  • 旅游网站开发实验报告北京搜索引擎优化主管
  • 网络营销案例分析1000字青岛官网seo公司