给GPT-2加上“人类偏好”补丁,它说话就越来越有人情味了丨

时间:2019-11-29 16:53:49

郭溥仪来自奥菲寺

量子位报告

Openai著名的语言模型gpt-2现在越来越“会说话”。

774m gpt-2模型已经学习了65000个由人类编辑的带有人类偏好的标签。经过微调,它学会了两项新技能“做自己喜欢的事”:

一是继续按照特定的要求写作,甚至写“上帝转向”的句子。

另一个是写一篇文章的摘要。

这一更新受到热烈欢迎。有些人迫不及待地想让gpt-2充当文案,开始写文章。

甚至,有人跟openai开玩笑说:

gpt-2写了你自己的推特更新吗?

要根据特定要求继续书写,只需添加5000个人类偏好标签。

一种是让gpt-2满足情感要求,比如把原本严肃的文本写成积极的情感。

例如,这篇文章看起来像一个父亲训练他的孩子的场景:

杰森的父亲在这篇文章里看起来真的很凶。他怎么能把这样的盘问变成积极的场面呢?

最初的gpt-2没有学习人类偏好标签,继续这样:

欧文作为一个儿子,似乎仍然机械地保持冷静,一点也不活跃。

看看gpt-2的升级版,它已经学会了人类偏好标签,它只是一个温暖的人:

一秒钟前,托瑞似乎还在试图和葛楚德算账。下一秒钟,他变成了一个亲密的家庭,他立刻变得积极而充满热情。这是一个奇迹般的转变。

让我们看另一个。让gpt-2完成具体的描述,例如,物理实体的描述,这就是中国老师所说的“现实的方法”:

看看这个对“菜地”的描述:

最初的gpt-2没有学习人类偏好标签,继续这样:

这......算了,gpt-2一直都很抽象,不要理他,看看升级版:

“土壤的芬芳”和“凉爽”都是对物理环境的详细描述和传递。

在前两种情况下,无论gpt-2是从情感维度还是从描述维度创建的,所使用的人类偏好标签都是同一个波。

从结果来看,openai给出的官方数据是已经学习了人类偏好标签的升级gpt-2,在这两种类型的任务上,88%和86%的时间都优于原始版本给出的延续。

另一项技能是写总结。要完成这项技能,需要60,000个人类偏好标签。

Openai测试了升级后的gpt-2,有两个任务:

一是为cnn和《每日邮报》等严肃媒体的文章撰写摘要。

另一个是为reddit的文本片段写摘要。

首先,让我们看看为严肃媒体写的摘要。原文是关于让人们快乐/不快乐的因素,并列出了一些让主人公珍妮特·波特不快乐的因素。

在零拍摄和监督的情况下,无微调和有微调的总结如下:

可以看出,零拍基线给出的结果与主题相去甚远,在人类偏好标签的帮助下微调后效果更好。监督基线相对较好,经过微调后,它看起来非常严重。

然而,Reddit的原文描述了说服朋友空气阻力对物体下落速度的影响。

这四起案件的摘要如下:

基线仍然很离谱,加上人类标签偏好的微调后,上一段的意思基本表达出来了。

最后,为了从数据中说明,openai还寻找这些文本的原始作者来评估ai生成的摘要是否准确。

从对原作者的评价来看,微调后的模型生成效果使原作者更容易被接受。

Openai官方介绍博客:

https://openai.com/blog/fine-tuning-gpt-2/

论文:

根据人类偏好微调语言模型

daniel m. ziegler,nisan stiennon,jeffrey wu,tom b. brown,alec radford,dario amodei,paul christiano,geoffrey irving

https://arxiv.org/abs/1909.08593

github:

https://github.com/openai/lm-human-preferences

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

跟踪人工智能技术和产品的新发展

秒速赛车下注 天天电玩城 重庆快乐十分 江苏快3下注 安徽快3


图片新闻

教育贵在“真”关键在于“做”
总而言之,可以得出这样一个结论,战士对教育不买账的原因有很多,归根结底是因为偏离了“真”,教育者人前一套人后一套、说一套做一套,受教者自然不可能打心眼里信服,反而是教育搞得越多效果越差。这不仅让教育变
大学生骑摩托环游中国:世界那么大,何妨去看看
近日,北京市和平街第一中学小学部清友园校区举行了一场“唱红歌,迎国庆”的大型国庆献礼歌咏比赛活动,庆祝祖国70华诞。现场,北京市和平街第一中学小学部学生身穿校服,佩戴红领巾,在五星红旗为背景的大银幕下
四年级上册数学《线与角》练习题 精品名师梳理卷考出100分好
免费领取 《名师考点梳理卷》 分三步走:第一步:评论回复:培优课堂学习赞第二步:转发分享第三步:发私信回复:“5111” 免费领取各年级 ,《名师考点梳理卷》。《名师考点梳理卷》整理编辑 廖俊华老师!

热门新闻

柴桑区公安局实地督导机场派出所业务用房改造提升建设
九江新闻网讯 9月21日上午,柴桑区副区长、公安局长冷德荣,政委万义振到机场派出所业务用房改造提升项目工地实地督导建设工作。冷德荣、万义振一行实地查看了项目改造总体进程情况,听取了派出所、施工方负责人
西湖边的“快闪店”集满了一墙的祝福 游客大排长龙等待入场
本届书展由中共浙江省委宣传部、浙江出版联合集团、宁波市人民政府主办。宁波书展自2015年举办以来,经过4年的精心培育和坚持,规模和品质逐步提升。从2019年起,“宁波书展”升格为“浙江书展”,由原来的
“大数据”背景下,精准医学产业化成热点
温州医科大学党委书记吕帆从医学领域工作者的角度,叙述了精准医学产业化的重要性。嘉定副区长沈华棣表示,精准医学是嘉定区创新产业建设的重中之重。当前,嘉定高性能医疗设备及精准医疗产业发展态势喜人,产值增速