1200字范文 > Chatgpt究竟是一个什么东西?

Chatgpt究竟是一个什么东西?

时间：2022-11-20 14:37:34

相关推荐

Chatgpt究竟是一个什么东西?

一、 Chatgpt究竟是一个什么东西?

它能够实现什么样的任务和什么样的功能?

它本质是一个聊天机器人

这是我跟他聊天保留下的一些聊天截图。

因为我之前以为他是一个英文的模型所以我最开始用英语去问他说canyouspeakchinese

然后得到一个肯定的回复后，我就干脆只用中文跟他进行聊天了。

我问他说：“ 你是怎么被训练出来的。“

他说：“ 我是通过深度学习的方法被训练出来的."

我问他:" 强化学习在你的训练过程中有起到什么样的作用 ."

他跟我说:"强化学习是一门选择力的技术，他是用来解决reword 交互任务。

这点他就很厉害，因为你没有办法一眼看出来这句话是机器人生成的而不是人去写的。

它能够实现什么样的任务和什么样的功能?

1. 聊天工具

这点其实不稀罕，像百度的PLAYTOR 也能做到

但其实离奇的是他不仅仅是聊天，还可以做任务测试。

一、摘要抽取

二、小说生成

三、尝试回答

四、文本分类

那在摘要抽取当中我选择一条世界杯的信息

问他说：”能帮我抽一下这段话的摘要信息是啥吗？

他告诉我说：“卡塔尔世界杯1/4决赛中，克罗地亚和巴西1- 1打平，

而在点球大战中晋级了四强。”

小说生成当中，我问他：” 你能不能用金庸的风格帮我写一段钢铁侠和绿巨人对战的小说。”

但比较有趣的是，他生成的小说里，绿巨人通常都会怒吼和嘶吼，而钢铁侠一般表现的会比较轻盈，也就是说没有给任何prom的情况下，他也能知道钢铁侠和绿巨人一些鲜艳的b权。

问答

光的速度是多少？它能给造一个表精确的结果，我们分类下，他也能知道说这句话是属于体育类别的新闻。所以通过这个我们就能够看到说这个聊天机器人能解决的问题不仅是聊天而很多n o p的task也可以转换成聊天的方式得到我们想要的。

说说他更厉害的功能，测试下翻译功能

比如说翻译 I'm Hungry ,如果用Chatgpt ,它生成的模型是一个字一个字的吐出来，

翻译成“肚”“子”“很”“饿”

但如果我们用BERT，它是一次性翻译成“肚狗很饿”

原理很简单，Chatgpt 因为是一个字一个字生成，才会更加精准，比如生成一个“肚”后面可以是肚子，肚皮。而BERT，一次生成，就不能精准的判断前一个字是什么？

所以更多人倾向于单项模型去做任务。

好接下来我们讲讲GPT 的发展史

GPT 是背提出的，那时候有1.17亿的参数直到今天GTP 已经又1750亿的参数了。

GPT-3 无疑是一个非常巨大的模型。

Insrtuct Gpt :这是印刷GPT就是切GPT 使用的基本框架。

两者的区别：

1) 用人类更喜欢的数据去做训练（align）

GPT 原本使用的是互联网中的海量语料，并不一定是人类想知道的内容。

比如说一些比较长尾的文章或者是一些长尾的知识。

那我们做对话机器人，那就应该知道人们都喜欢问一些什么样的问题。

GPT 就围绕人们通常感兴趣的内容并编写答案，进行训练。

2) 引入强化学习(RL)提升性天花板

强化学习是一门只告诉模型好不好，而不告诉模型怎样才能变好的学科

这就意味着说这种方式能够使得模型有了更大的探索自由度从而突破进入学习的天花板

比如：今天我们要去训练一个对话机器人， “女朋友生气怎么办？‘’

如果你要做一个监督学习的模型的话，可能就会让一个人去说

1. 跟他道歉

2. 就是说陪他逛街

3. 提醒他要多喝热水

那我再遇到女朋友生气怎么办，就可以从这些参考级别去思考。

像这样的对话训练，其实我们都已经知道这个模型的天花板在哪里了。

最好的效果就是从这几个选项当中去选择。

那强化学习版怎么做呢？

把人工标注的部分改成人工打分的部分，那就不会给出答案，

而是告诉他你觉得应该给出什么样的回答。

那模型就会自己瞎猜，比如说跟女朋友吵架，那我们就给它打负分比如-5分，这就不是一个很好的选择。

那模型就会知道这样方式是不允许的，那他可能会回答说讲道理，那我们可能觉得这个回答也没有那么好，就给他打-1分。那模型就会知道，不能吵架，不能讲道理，那就可以跟他认错。那我们觉得这个行为确实还可以，于是给他正向分，+3

所以强化学习的过程中，我们并没有告诉模型看到女朋友生气具体要做什么样的事情，我们只是让模型认识到什么样的事情是好的，什么样的事情是不好的。因为我们知道人类的语言是非常非常大的。我们很难说去呈现什么样什么样的模板。只是希望模型知道什么样是好，什么样是不好的概念。

这点非常重要，为什么要把强化学习的这种概念用在里面，以及为什么用在里面就能够取得更好的效果的原因。

好了，下一篇再讲 CHATGPT 的训练流程。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。