IT之家 7 月 5 日消息,据外媒 iXBT 4 日报道,德国 Helmholtz AI 研究计划、谷歌 DeepMind、普林斯顿大学等机构的研究团队近日联合发布了一项重要成果:一款名为 Centaur 的通用型 AI 模型,首次实现了在大规模认知任务中预测人类行为的能力。
Centaur 基于 700 亿参数的 Llama 3.1 语言模型,并通过名为 Psych-101 的数据集进行了专门训练。该数据集汇集了来自 6 万名参与者、覆盖 160 个实验的超过 1000 万个决策,涵盖了感知、记忆、逻辑推理、道德判断及不确定性决策等领域。研究人员将每个实验转化为自然语言的文本形式,使模型可以像阅读说明书一样理解任务。凭借这一训练方式,Centaur 能够在未接触过的新情境下做出精准预测。
即使面对完全陌生的测试任务,Centaur 也能精准预测行为。例如在一项类似老虎机的实验中,参与者需在中奖概率不同的两台机器间做出选择,模型的预测结果高度贴近真实决策。在逻辑推理和道德难题等更复杂的认知场景中,Centaur 的表现也超过了现有的主流模型。
研究人员特别关注 Centaur 与人脑运作的相似性。他们将模型的“内部表征”与功能性磁共振成像(fMRI)结果对比,发现 Centaur 在处理任务时的激活模式,与人类大脑的神经活动更为接近,甚至超过了 GPT-4 和 PaLM-2。
Centaur 还能推动认知科学理论的发展。在一项测试中,模型识别出一种新型决策策略:人类在做选择时不仅考虑概率,还会预估未来回报。这一模式此前从未在心理学研究中被系统描述,但经过模型的提示,研究人员再次实验并确认了其存在。
目前,Psych-101 数据集和 Centaur 模型已全部开放,未来还计划拓展应用至儿童心理学、精神病学等更多领域。
IT之家附该成果在《自然》杂志上的论文:articles/s41586-025-09215-4?utm_source=ixbtcom
0 条