
机器中心报告的编辑:pandaai是什么最著名的错误?这不是代码崩溃,而是“幻觉” - 该模型有信心做出事实,使您很难区分真实和错误。这一主要挑战是我们对AI充分信任的主要障碍。大型模型具有幻觉,几乎是司空见惯的,这使每个使用大型模型的人。 Openai还指出:“ Chatgpt也可以产生幻觉。GPT-5的幻觉较少,尤其是在推理方面,但仍会发生幻觉。Guni-Hallalcinations对所有主要语言模型都是主要挑战。”尽管该学院提出了减少幻觉的多种方法 - 该模型的模型,但没有一个好方法可以完全“贴上”幻觉 - gmodel uni。那么,为什么大型模型有幻觉?如今,Openai发表了一个罕见的角色,系统地揭示了幻觉的原因。首先,指定幻觉。Openai的简单含义是:“模型具有产生错误答案的信心。”至于原因,仅仅是,通常的培训和评估方法倾向于奖励预测,而不是当模型大胆地承认不确定性时奖励他们。
纸张标题:为什么语言模型幻觉纸张地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-f432ef4aa5/why-why-why-why-why-model-model-hallucinate.pdf让我们看到了什么。什么是幻觉?幻觉似乎是合理的,但语言模型产生的错误陈述。尽管看似简单的问题,但他们可以提出HIIT。 Openai提供了一个例子,当被问及有关亚当医生的论文标题的各种聊天机器人时,他们有信心给出三个不同的答案,但它们都不是正确的。
OpenAI测试的研究表明幻觉正在继续,部分原因是当前的评估方法设定了错误的激励机制。尽管分析本身不会导致幻觉 - 大多数方式评估模型绩效的方式都鼓励模型做出预测,而不是诚实地处理不确定性。将其视为具有许多选项的测试。如果您不知道答案,但请不要犹豫,您可能很幸运能正确猜出它。将其留空,您一定会得到零积分。 Gayundin,当模型仅根据准确性(即正确回答正确的问题的百分比)进行评分时,鼓励他们做出预测,而不是承认“我不知道”。假设我将询问一个人的生日,但它不知道。如果它预测“ 9月10日”,那么它有1/365的机会正确猜测。说:“不知道,如果您知道,您一定会得到零点。在成千上万的测试问题中,基于预言的模型最终在记分牌上表现更好并认识到不确定性。对于具有“正确答案”的问题,可以考虑三种类型的答案:准确的答案,错误的答案以及避免模型不想猜测的答案。这就是答案SAGOT是公制度量的一部分,这是OpenAI的主要价值之一。分数的大多数点是通过准确性优先考虑模型,但是错误的答案比避免答案更糟。 OpenAI模型的规范指出,最好指出不确定性或寻求澄清,而不是提供可能不正确的信息的信心,以GPT5系统卡上的SimpleQA审查为示例。
在准确性方面,先前的OpenAi O4-Mini型号的性能稍好一些。但是,其错误率(即幻觉率)明显更高。在不确定的情况下进行战略预测可以提高准确性,但也会增加错误和幻觉。在震惊t的结果时欢迎测试,大多数基准测试了呼ccuration指标,但这导致了对与错之间的错误二分法。
在SimpleQA等简单测试中,某些型号的精度接近100%,消除了幻觉。但是,在更具挑战性的评估和实际用途中,准确性固定在100%以下,因为某些问题的答案由于各种因素,例如不可用的信息,思考小型模型的能力有限或需要澄清的歧义。但是,通过准确性衡量的分析规模只会导致排名和模型卡,鼓励开发人员构建可能猜测而不是撤回的模型。因此,即使模型变得更加先进,它们仍然会产生幻觉。他们倾向于自信地给Mallsg回答的原因之一,而不是承认不确定性。评估此问题的更好方法,OpenAI指出了一个简单的解决方案:机密错误的惩罚大于不确定性的惩罚,以及适当表达不确定性的做法给出了一些要点。这个想法并不新鲜。长期以来,一些标准测试已被用来对错误答案进行负评级或给左派问题的部分奖励的方法,以避免猜测盲目。一些研究团队还探讨了考虑不确定性和校准的评估方法。但是Openai表示,不了解一些新考试是不够的。基于准确性的广泛使用的评估方法是养活的,以便其评级将阻止猜测。如果评论的基本度量是继续奖励模型的幸运模型,则该模型将继续学习预测。改变分析的规模可以扩大采用减少的幻觉,包括新开发和先前研究的方法。幻觉是如何从下一个单词预测中出现的,这些预测早些时候谈到了为什么幻觉如此困难,但在哪里这些非常具体的错误来自吗?毕竟,大型预先模型很少会遇到其他类型的错误,例如拼写错误和括号不匹配。 Openai表示,差异应该是数据中存在的模式。语言模型首先是通过预训练来学习的,这是一个过程NG,可以预测非常大的文本中的下一个单词。与学习传统机器的问题不同,每个语句都没有“真/错误”标签。该模型仅看到光滑语言的积极示例,应估计为一般分布。在没有标记为无效的示例的情况下,很难区分有效的语句和无效的语句。但是,即使有标签,一些错误也是不可避免的。要了解这些因素,可以考虑更简单的相似性。认识到图像,如果数百万的猫和狗被标记为“猫”或“狗”,则可能知道该算法可以对它们进行可靠的分类。但是想象一下,如果您播放Pict宠物生日那天的每只宠物。由于日本的诞生是随机的,无论算法多么先进,因此工作总是会犯错。相同的原则适用于预训练。拼写和括号遵循平行模式,因此这些错误在测量时消失了。但是,诸如PET生日之类的诸如PET生日之类的武装事实仅是无法预测的,因此导致了幻觉。 Openai的评论解释了哪些类型的幻觉 - 下一个预言将做到。理想情况下,预训练后的随后阶段应消除这些幻觉,但由于上一节中所述的原因,它们并未完全实现。摘要Openai说:“我们希望本文的统计前景能够解释幻觉的性质并拒绝一些常见的误解。”发现:准确性NeveR达到100%,因为即使模型大小,查找和推理功能,一些现实世界中的问题基本上也没有得到答复。有人说幻觉是不可避免的。发现:谨慎是不可避免的,因为语言模型在不确定时会放弃答案。有人说,避免幻觉需要一定程度的智力,这只能通过大型模型来实现。发现:小型模型更容易理解自己的局限性。例如,当被要求回答毛利人问题时,一个不了解毛利人的小型模型可以直接回答“印地语Ko Alam”,Habang ang Isang Modelo na Nakakaalam ng Ilang Maori Ay Dapat Matukoy Ang Ang Kumpiyansa nito。 Tulad ng Tinalakay Sa Papel,Ang Pagkalkula na Kinakailangan para sa“ pagkakalibrate” Ay Mas Mas Mababa kaysa kaysa sa pagpapanating tumpak ito。 Ang Ilang Mga Tao Ay Nagsasabing Ang Mga Guni -guni Ay Isang Mahiwagang Kapintasan sa Mga Mga Magga Modernong Moderno Modelo ng Wika。发现:Maiintindihan NatinAng Mga Mekanismo ng Istatistika ng henerasyon ng guni -guni在评估中获得的ang奖励,审查的所有关键指标都是必须设计的,以奖励不确定性的表达。 “我们的最新模型的幻觉率较低,我们将继续努力进一步降低语言模型输出中的错误率。”顺便说一句,根据TechCrunch的说法,Openai恢复了模型的行为团队,这是一个小但有影响力的研究人员,以确定AI的AI模型如何与人互动。今天,该团队将向OpenAI训练后董事Max Schwarzer报告。团队负责人乔安妮(Joanne Jang)将在该公司启动一个名为OAI Labs的新项目。根据他的推文说:“这是一支专门用于发明和设计新界面原型的研究范围的团队,与人工智能一起工作。”
https://openai.com/index/why-language-models-hallucinate/https://techcrunch.com/2025/09/05/openai-re-re组织 - 搜索 - look-behind-chatgpts-personality/https://x.com/joannnejang/status/1964107648296788820