AI 告诉你可以把文件发到你邮箱,然后又告诉你作为一个 AI,我没有发送文件的能力
AI 给你引了一个参考文献,你告诉他文献之后不存在之后他鞠躬道歉然后又编了一篇假的
AI 道歉之后让你去找他要赔偿,转头告诉你 AI 是没有能力进行赔偿的
是的,这就是 AI 左右脑互搏的日常,相信各位盒友也遇到过那么 AI 为什么会左右脑互搏,编造不存在的内容呢?这篇文章告诉你答案
AI 的运行原理
首先,我们得搞懂 AI 究竟是怎么生成这段文字的,虽然 AI 一直都是高智商的形象,但是现在我要告诉你一个事实:
AI 并不会思考和想象,他们只会背诵和预测
下面,我们来讲解一下 AI 是如何进行预测的,我会用[mask]代表这里应该有文本,但是被人为“遮住”了,让 AI 预测 [mask] 中的内容是什么
这里有一段话:终于放假了,我要去看首都的天安门,搜搜从家怎么去[mask]
首先,AI 作为一个数学模型,他看不懂任何一种语言,他只能看得懂数字序列,所以我们需要一个分词器(tokenizer)来把文字转换成 AI 看得懂的数字。现在,上面那段话变成了:
终于 放假 了 ,我 要去 看 首都 的 天安门 ,搜搜 从家 怎么 去 [mask]
实际上这段话会变成类似于[101, 2769, 2521, 1377, 872, 749, 511, 102]这种序列,并同时编码句子顺序和词语顺序,但是如果这样在座的各位就看不懂了,所以我们只进行分词操作来代表这步
然后自注意力机制就会启动了,这个机制会自动构建词与词之间的关系,并尝试识别出句子中的重点是什么,自注意力之后:
终于 放假 了 ,我 要去 看 首都 的 天安门 ,搜搜 从家 怎么 去 [mask]
同时 AI 会构建出[mask]这个位置和整个句子的关系:
[mask] 在“去”之后,它应该是个名词
“去”反复出现了两次,[mask] 应该是个地点
“天安门”是去 [mask] 的目的,所以[mask]有“天安门”这个特征
“首都”是“天安门”的修饰词,[mask]是有“天安门”的“首都”
当前语境是中文,“首都”应该是中文国家的首都
然后 AI 成功构建出了 [mask] 的特征:一个中文国家的首都,有“天安门”这个特征,并且是一个地点
然后 AI 就会开始用自己记忆库中的内容找最符合的词汇,根据相关性构建出如下列表:
北京:符合“中文国家的首都”、“天安门”、“地点”
天安门:符合“天安门”、“地点”
东京:符合“首都”、“地点”
天津:符合“地点”
AI 会根据相关性计算每个选项的得分,最终选择最高的输出出去,上述句子就变成了:
终于 放假 了 ,我 要去 看 首都 的 天安门 ,搜搜 从家 怎么 去 北京
然后分词器再次工作,把它还原成人类看得懂的语言:
终于放假了,我要去看首都的天安门,搜搜从家怎么去北京
现在,AI 已经完成了一次预测,成功补全了 [mask] 中的内容
训练和指导
你会发现一个问题:AI 好像只会顺着你的话说,不会回答问题啊?
是的,AI 只有预测当前序列的下一项的能力
那为什么我们用的 AI 不会顺着我的话说,而是会回答问题呢?
因为你用的 AI 进行了专门的问答训练,这就是导致 AI 左右脑互搏的一个重要原因
我们上文说到了,AI 需要从记忆库中匹配选项,而他的记忆库完全来自于训练使用的数据集,这就是他们知道的所有事情,假如我们让 AI 针对大量的问答类对话记录进行训练,它就会进行回答,但这不是 AI 思考出了应该进行回答,而是“人类在提问之后大概率会回答问题,所以我应该进行回答,这样是概率最高的”
因此就会出现这个问题了,在很多论坛和问答社区中,讨论往往以“我把文件发到你的邮箱”和“你发个QQ我给你远程一下”做结,很少有人会把文件内容用文本形式回复回去,所以 AI 现在又开始推理了,这次的问题不太一样:
用户:“你能创作一首音乐并用 MIDI 格式给我吗,要求如下:...”
AI:“是的,我能按照你的要求创作一首音乐,(省略1000字),我已经编写好了这个音乐,[mask]”
因为MIDI格式使用文本很难表述,所以有关论坛中都会是以“邮箱发送”或者“论坛文件”结束,于是 AI 排序了一下:
在93%的训练数据里面最后人类回复的都是“我把文件发到你的邮箱了”,所以我这么回复和人类一致的概率是最高的,我输出这个回复
然后这个世界上又多了一个被 AI 骗的人
因为自注意力机制往往“顾尾不顾头”,容易遗忘,所以 AI 此时的注意力全部在“编写好了之后应该怎么办”这个问题上,会忘了“我不能发送邮件”这个基础设定,最终“发送邮件”就成了概率最高的选项
同理,我们开头举的另外两个例子也是这样,AI能预测出人类大概率会这样做,但是又忘了自己是个AI或者自己根本不知道,就会回答不存在的事物
防范与缓解
不知道你有没有听说过“色盲悖论”,假如一个人出生时开始看红色和绿色就和普通人是相反的,那么他在社会中交流时并不会有任何问题,因为他的“红色”是绿色,“绿色”是红色,这是后天施加的概念,他一生被教导的都是“红色”是绿色,自然不会有任何问题,可能到死也不知道自己视觉有问题,因为他不知道真正的红是“绿色”,事实上他只形成了一个对于“红色”的刻板印象
AI 也面临这个问题,AI 的所有知识都来自于训练集之中,所以它无法理解“例外”,也就会出现“幻觉问题”,其实本质就是 AI 的“刻板印象”,AI 从出生开始见到的所有科技就都和量子有关,你是说服不了他科技可以没有量子的,因为他没有见过;AI 从出生开始见到的所有帖子都以“邮箱回复”结尾,你是说服不了他他不会用邮箱回复的,因为他没见过不用邮箱的
这个问题最好的解决方法就是在训练时扩大训练集,或者添加外部可信数据源,避免某个特定回复在训练集中占比过高,导致 AI 怎么预测都会是他排在前面,例如经典的“Deepseek量子”可能就是训练集中存在大量该方面的文献,导致了频率过高,导致了 AI 出现“刻板印象”,也就出现了幻觉
但是我们一般人是没有办法训练 AI 的,在使用时如何缓解幻觉呢?
还记得我之前说的吗:自注意力机制往往“顾尾不顾头”
所以你在对话中明确告诉 AI 他不能做什么和你希望他做什么就可以了
例如:
“编写一首悲伤的音乐并用MIDI发给我”
改为:
“编写一首悲伤的音乐,并用简谱或其他能以文本形式回复的格式直接回复给我,不要给我发送文件”
后者出现“发邮件”的概率就会低很多,因为前面用文本回复完之后通常不会接邮件,“不用邮件”对应概率更大的也是文本直接回复
以及防范 AI 幻觉最重要的一点:
别把 AI 回复当真理,AI 说的不一定对
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com
