category
ChatGPT等人工智能聊天机器人和其他由大型语言模型驱动的应用程序已经得到了广泛的应用,但它们的可靠性却臭名昭著。一个常见的假设是,扩大驱动这些应用程序的模型将提高其可靠性,例如,通过增加它们训练的数据量或用于处理信息的参数数量。然而,根据一项新的研究,这些语言模型的更新和更大版本实际上变得更加不可靠,而不是更少。
大型语言模型(LLM)本质上是智能手机用来预测一个人正在键入的单词其余部分的自动补全功能的超级版本。ChatGPT,也许是最著名的LLM驱动的聊天机器人,已经通过了法学院和商学院的考试,成功回答了软件编码工作的面试问题,撰写了房地产清单,并开发了广告内容。
但法学硕士经常犯错误。例如,6月份的一项研究发现,ChatGPT在生成函数式代码方面取得了极其广泛的成功,成功率从微不足道的0.66%到89%不等,具体取决于任务的难度、编程语言和其他因素。
研究团队已经探索了一系列策略,使LLM更可靠。这些包括增加模型的训练数据量或计算能力,以及使用人类反馈来微调模型并提高其输出。随着时间的推移,LLM的性能总体上有所提高。例如,早期的LLM在简单的加法(如“20+183”)上失败了。现在LLM成功地执行了涉及50位以上数字的加法。
然而,上周发表在《自然》杂志上的这项新研究发现,“最新的LLM可能看起来令人印象深刻,能够解决一些非常复杂的任务,但它们在各个方面都不可靠,”研究合著者、西班牙瓦伦西亚理工大学的研究助理Lexin Zhou说。更重要的是,他说,“这一趋势似乎没有显示出明显的改善,而是相反。”
可靠性的降低部分是由于最近的模型发生了变化,使得它们不太可能说自己不知道答案,或者给出不回答问题的答案。相反,后来的模型更有可能自信地生成错误的答案。
LLMs在轻松和艰巨的任务中表现如何
研究人员探索了几个LLM家族:OpenAI的10个GPT模型,Meta的10个LLaMA模型,以及BigScience倡议的12个BLOOM模型。在每个家庭中,最新的型号都是最大的。研究人员从三个关键维度关注LLM的可靠性。
科学家们研究的一个途径是LLM在人们认为简单的任务和人类认为困难的任务上的表现如何。例如,一个相对容易的任务是添加24427和7120,而一个非常困难的任务是增加18936030102323501638430和98832380858765261900。
与人们认为容易的任务相比,LLM在人类认为具有挑战性的任务上通常不那么准确,这并不奇怪。然而,即使在简单的任务上,人工智能系统也不是100%准确。周说:“我们发现,没有安全的操作条件可以让用户确定这些LLM可以信任的地方。”。
此外,新的研究发现,与之前的LLM相比,最新的模型在处理高难度任务时提高了性能,但在处理低难度任务时没有。这可能是由于LLM开发人员专注于越来越难的基准测试,而不是简单和困难的基准测试。周说:“我们的结果揭示了开发人员实际上在优化什么。”。
聊天机器人无法应对不确定性
周团队研究的LLM表现的第二个方面是模型避免回答用户问题的倾向。研究人员发现,最近的LLM在回答时不那么谨慎——他们更有可能勇往直前,自信地提供不正确的答案。此外,尽管人们倾向于避免回答超出其能力范围的问题,但最近的LLM并没有在任务难度增加时避免提供答案。
周说,这种轻率可能源于“让语言模型试图说出看似有意义的东西的愿望”,即使模型处于不确定的领域。他补充道,这让人类承担了在LLM输出中发现错误的负担。
最后,研究人员检查了给LLM的任务或“提示”是否会影响他们的表现。他们发现,最新的LLM仍然对提示的陈述方式高度敏感,例如,在加法提示中使用“加号”而不是“+”。
聊天机器人如何扰乱人类的期望
英国剑桥大学实验心理学教授Lucy Cheke表示,这些发现突显了LLM没有显示出符合人类期望的可靠性模式的方式,她在人工智能模型中测量认知能力。
没有参与这项新研究的Cheke说:“如果有人是数学老师,也就是说,能做难数学的人,那么他们擅长数学,因此我可以认为他们是简单数学问题的可靠来源。”。“同样,如果那个人能正确回答‘2354+234’,那么我可能会相信他们对‘2354+334’的回答。但这两种假设都不适用于这些更大的模型。”
此外,研究发现,人工监督无法弥补所有这些问题。例如,人们认识到有些任务非常困难,但仍然经常期望LLM是正确的,即使他们被允许对正确性说“我不确定”。研究人员表示,这种趋势表明人们对模型过于自信。
Cheke说:“人们越来越信任那些主要产生正确信息的系统,但这些系统中混入了足够多的看似合理但错误的信息,从而造成了真正的问题。”。“随着人们越来越依赖这些系统来回答他们无法发现错误答案的复杂问题,这变得尤其成问题。”
尽管有这些发现,周警告不要把LLM看作无用的工具。他说:“它们对于许多应用程序仍然非常有用,例如,在用户可以容忍错误的任务中。”。“不会飞的汽车并非不可靠,因为没有人期望汽车会飞。早期的LLM就是这样——人类对它们没有太大期望。但在过去几年里,随着LLM变得越来越强大,人们开始依赖它们,也许是太依赖了。”
周也不认为这种不可靠性是一个无法解决的问题。他说:“如果新发现在下一代LLM中得到考虑,我们可能会开始看到更多的LLM被采用,对LLM的怀疑也会减少。”。但在研究人员找到解决方案之前,他计划提高人们对过度依赖LLM和依赖人类监督LLM的危险的认识。
- 登录 发表评论