75年后，图灵测试终被GPT-4.5破解，73%人类被骗过，彻底输给AI 机器智能超越人类

宫外财经 • 2025年4月3日下午12:04 • 生活 • 阅读 23

75年后，图灵测试终被GPT-4.5破解，73%人类被骗过，彻底输给AI 机器智能超越人类！AI通过了标准的三方图灵测试，这标志着人工智能技术取得了重大突破。加州大学圣迭戈分校的研究人员系统评估了四个AI系统，证明大语言模型（LLM）能够成功通过图灵测试。这意味着未来与你热聊的“熟悉陌生人”可能并不是真人。

在测试中，参与者需要同时与人和AI系统进行5分钟的对话，然后判断哪位是真人。结果显示，GPT-4.5以73%的比率被认作人类，显著超越真实人类参与者；LLaMa-3.1-405B获得56%的识别率，与人类无显著差异。这些结果表明，AI在模仿人类行为方面已经非常出色。

这项研究对理解LLM的智能本质以及其在社会经济方面的影响具有重要意义。艾伦·图灵提出的图灵测试，旨在通过纯文字聊天界面判断机器是否具备智能。如果测试员无法准确区分真人和AI，就说明机器通过了测试。过去75年里，许多人尝试开发能通过图灵测试的系统，但直到最近，随着LLM的发展，这一目标才得以实现。

研究人员进行了随机对照的三方图灵测试，评估了GPT-4.5、LLaMa-3.1-405B以及基准模型GPT-4o和ELIZA的表现。实验结果显示，当使用特定角色提示时，GPT-4.5-PERSONA的胜率为73%，LLAMA-PERSONA的胜率为56%。相比之下，没有角色提示的模型表现较差，整体胜率分别为36%和38%。基准模型GPT-4o-NO-PERSONA和ELIZA的胜率分别为21%和23%。

为了进一步分析测试结果，研究人员探讨了参与者采用的不同策略和判决理由。最常见的策略是闲聊，询问日常活动或个人细节。最有效的策略包括说一些奇怪的话或使用典型的LLM“越狱”技巧。最常见的判决理由是对话语气和互动动态，许多参与者依赖直觉判断。

这些结果引发了一些重要的问题：LLM通过图灵测试意味着什么？人类在智力上被AI超越了吗？尽管GPT-4.5-PERSONA在两项研究中的胜率显著高于偶然性，但这主要归功于特定的角色提示。因此，系统的行为不仅取决于模型本身，还取决于编写提示的AI研究员。

未来的研究可以探索更多实施方式，如延长测试时间或改变参与者群体，以更全面地评估LLM的能力。图灵测试本质上测量的是拟人性而非直接智能，但当机器智能逼近人类时，其他差异维度变得更为重要。最终，智能的多元性决定了任何单一测试都不具决定性。

此外，LLM的成功也可能带来广泛的社会影响。AI可以在短时间内与人类进行对话，而对话者无法分辨出差异。这可能导致人们花费越来越多的时间与这些“伪造的人类”互动，从而削弱真实人类互动的价值。如何检测这种欺骗成为了一个亟待解决的问题。尽管某些策略比其他策略更有效，但整个群体的辨别准确度相对均匀。未来的研究可以探索如何教授这些技巧，以提高人们辨别人类和机器的能力。