
机器中心报告的编辑:pandaai是什么最著名的错误?这不是代码崩溃,而是“幻觉” - 该模型有信心做出事实,使您很难区分真实和错误。这一主要挑战是我们对AI充分信任的主要障碍。大型模型具有幻觉,几乎是司空见惯的,这使每个使用大型模型的人。 Openai还指出:“ Chatgpt也可以产生幻觉。GPT-5的幻觉较少,尤其是在推理方面,但仍会发生幻觉。Guni-Hallalcinations对所有主要语言模型都是主要挑战。”尽管该学院提出了减少幻觉的多种方法 - 该模型的模型,但没有一个好方法可以完全“贴上”幻觉 - gmodel uni。那么,为什么大型模型有幻觉?如今,Openai发表了一个罕见的角色,系统地揭示了幻觉的原因。首先,指定幻觉。Openai给出的简单含义是:“模型具有产生错误答案的信心。”至于原因,只有通常的培训和评估方法倾向于奖励预测,而不是在模型勇敢地认识到不确定性时奖励他们。纸张标题:为什么语言模型幻觉纸张地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-f432ef4aa5/why-why-why-why-why-model-model-hallucinate.pdf让我们看到了什么。什么是幻觉?幻觉似乎是合理的,但语言模型产生的错误陈述。尽管看似简单的问题,但它们可以以意外的方式进行整个问题。 Openai提供了一个例子,当被问及有关亚当医生的论文标题的各种聊天机器人时,他们有信心给出三个不同的答案,但它们都不是正确的。当被问及他的生日时,它给了三个不同的日期,这都是错误的。 OpenAI测试的研究表明幻觉是连续的NG,部分是因为当前的评估方法设定了错误的激励机制。虽然分析本身并没有导致幻觉 - 大多数方式评估模型绩效的方法都鼓励模型做出预测,而不是诚实地处理不确定性。将其视为具有许多选项的测试。如果您不知道答案,但请不要犹豫,可能会足够猜对了。将其留空,您一定会得到零积分。同样,当模型仅根据准确性评分(即正确回答正确的问题的百分比)时,鼓励他们做出预测,而不是承认“我不知道”。假设我将询问一个人的生日,但它不知道。如果它想到“ 9月10日”,那么正确预测它是1/365的可能性。如果您说“我不知道”,那么您肯定会得到零点。在成千上万的测试问题中,基于预测的模型最终在记分牌上表现更好,而不是精心识别的不确定性。对于具有“正确答案”的问题,可以考虑三种类型的答案:准确的答案,错误地戈多特,并避免模型不想预测的答案。 Openai说答案是度量公制的一部分,该度量是OpenAI的主要价值之一。分数的大多数点是通过准确性优先考虑模型,但是错误的答案比避免答案更糟。 OpenAI模型的规范指出,最好指出不确定性或寻求澄清,而不是提供可能不正确的信息的信心,以GPT5系统卡上的SimpleQA审查为示例。在准确性方面,先前的OpenAi O4-Mini型号的性能稍好一些。但是,其错误率(即幻觉率)明显更高。在不确定情况下做出战略预测可以改善OVE的准确性,但也增加了错误和幻觉。 Kapagagagagagaggagion测试结果的结果,大多数基准测定了准确性指标,但这导致了对与错之间的错误二分法。在SimpleQA等简单测试中,某些型号的精度接近100%,消除了幻觉。但是,在更具挑战性的评估和实际用途中,准确性固定在100%以下,因为某些问题的答案由于各种因素,例如不可用的信息,思考小型模型的能力有限或需要澄清的歧义。但是,通过准确性衡量的分析规模只会导致排名和模型卡,鼓励开发人员构建可能猜测而不是撤回的模型。因此,即使模型也变得更加先进,它们仍然会产生幻觉。原因之一是他们倾向于充满信心地提供错误的答案,而不是承认不确定性。更好的评估方法事物,OpenAI指出了一个简单的解决方案:机密错误的惩罚大于对不确定性的惩罚,并且对适当表达不确定性的做法给出了一些要点。这个想法并不新鲜。长期以来,一些标准测试已被用来对错误答案进行负评级或给左派问题的部分奖励的方法,以避免猜测盲目。一些研究团队还探讨了考虑不确定性和校准的评估方法。但是Openai表示,添加一些新的Suleperstitionslit不知道是不够的。需要更新广泛使用的,基于准确的评估方法,以便其评级可以防止预测。如果评论的基本度量是继续奖励模型的幸运模型,则该模型将继续学习预测。改变分析的规模可以扩大采用减少的幻觉,包括新开发和先前研究的方法。幻觉如何从至少已经讨论过的下一个单词预测很难摆脱幻觉,但是这些特定错误来自何处?毕竟,大型预先模型很少会遇到其他类型的错误,例如拼写错误和括号不匹配。 Openai表示,差异应该是数据中存在的模式。语言模型首先是通过预训练来学习的,这是一个猜测大量文本中下一个单词的过程。与学习传统机器的问题不同,每个语句都没有“真/错误”标签。该模型仅看到光滑语言的积极示例,应估计为一般分布。在没有标记为无效的示例的情况下,很难区分有效的语句和无效的语句。但是,即使有标签,一些错误也是不可避免的。要了解这些因素,可以考虑更简单的相似性。认识到图像,如果数百万的猫和狗被标记为“猫s“或“狗”,算法都可能已知可以对它们进行可靠的分类。但是,如果您在宠物的生日上播放每个宠物的照片。由于kapangajapan的提名是随机的,无论算法如何,这项工作总是会造成错误,那么这项工作总是会造成错误。这些原则适用于预先训练的典型范围。诸如宠物生日之类的低频是无法预测的,因此幻觉会导致幻觉。并拒绝一些你的误解”:有些人说幻觉可以是el通过提高准确性而受到影响,因为100%精确的模型永远无法产生幻觉。发现:准确性永远无法达到100%,因为即使是模型的大小,查找和推理功能,一些真实的世界 - 新问题基本上也没有解决。 - 不可避免。不了解毛利人的模型可以直接回答“我不知道”,而一个知道毛利人的模型必须确定其信心。如论文所述,“校准”所需的计算远不及保持准确性。有人说幻觉是现代语言模型中的神秘缺陷。发现:我们可以了解Guni -Guni -Guni -Guni的统计机制以及评估中获得的奖励。有人说:衡量幻觉 - 但是,我们只需要良好的幻觉评估即可。发现:一些研究人员发表了一些幻觉。但是,与数百种传统A相比,良好的幻觉评估效果不佳基于准确性来惩罚谦虚和奖励奖励。相反,必须重新设计分析的所有关键指标,以奖励不确定性的表达。 “我们的最新模型的幻觉率较低,我们将继续努力进一步降低语言模型输出中的错误率。”顺便说一句,根据TechCrunch的说法,Openai恢复了模型的行为团队,这是一个小但有影响力的研究人员,以确定AI的AI模型如何与人互动。今天,该团队将向OpenAI训练后董事Max Schwarzer报告。团队负责人乔安妮(Joanne Jang)将在该公司启动一个名为OAI Labs的新项目。根据他的推文:“这是一支专门用于发明和设计人们在AI中工作的新的Interfac原型的团队。”rsonality/https://x.com/joannnejang/status/1964107648296767778820
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。