苹果AI研究团队发现了大型语言模型推理能力的重大弱点

10月15日 13

这个人很懒什么都没有留下

根据一项新发表的研究，苹果的人工智能研究团队发现了大型语言模型推理能力的重大弱点。

这项研究发表在 arXiv 上，概述了苹果对一系列领先语言模型的评估，包括来自 OpenAI、Meta 和其他知名开发商的模型，以确定这些模型处理数学推理任务的能力。研究结果表明，即使问题措辞的细微变化也会导致模型性能出现重大差异，从而削弱其在需要逻辑一致性的场景中的可靠性。

苹果提醒人们注意语言模型中的一个长期存在的问题：它们依赖模式匹配而不是真正的逻辑推理。在几项测试中，研究人员证明，在问题中添加不相关的信息（不应影响数学结果的细节）会导致与模型截然不同的答案。

根据这项研究，所有测试的模型，从较小的开源版本（如 Llama）到专有模型（如 OpenAI 的 GPT-4o），在面对输入数据中看似无关紧要的变化时，性能都显著下降。苹果建议人工智能可能需要将神经网络与传统的基于符号的推理（称为神经符号人工智能）相结合，以获得更准确的决策和解决问题的能力。

当你获得证书后如何从小白开始使用自签(全能签版)