75年后,图灵测试终被GPT-4.5破解,73%人类被骗过,彻底输给AI 机器智能超越人类!AI通过了标准的三方图灵测试,这标志着人工智能技术取得了重大突破。加州大学圣迭戈分校的研究人员系统评估了四个AI系统,证明大语言模型(LLM)能够成功通过图灵测试。这意味着未来与你热聊的“熟悉陌生人”可能并不是真人。
在测试中,参与者需要同时与人和AI系统进行5分钟的对话,然后判断哪位是真人。结果显示,GPT-4.5以73%的比率被认作人类,显著超越真实人类参与者;LLaMa-3.1-405B获得56%的识别率,与人类无显著差异。这些结果表明,AI在模仿人类行为方面已经非常出色。
这项研究对理解LLM的智能本质以及其在社会经济方面的影响具有重要意义。艾伦·图灵提出的图灵测试,旨在通过纯文字聊天界面判断机器是否具备智能。如果测试员无法准确区分真人和AI,就说明机器通过了测试。过去75年里,许多人尝试开发能通过图灵测试的系统,但直到最近,随着LLM的发展,这一目标才得以实现。
研究人员进行了随机对照的三方图灵测试,评估了GPT-4.5、LLaMa-3.1-405B以及基准模型GPT-4o和ELIZA的表现。实验结果显示,当使用特定角色提示时,GPT-4.5-PERSONA的胜率为73%,LLAMA-PERSONA的胜率为56%。相比之下,没有角色提示的模型表现较差,整体胜率分别为36%和38%。基准模型GPT-4o-NO-PERSONA和ELIZA的胜率分别为21%和23%。
为了进一步分析测试结果,研究人员探讨了参与者采用的不同策略和判决理由。最常见的策略是闲聊,询问日常活动或个人细节。最有效的策略包括说一些奇怪的话或使用典型的LLM“越狱”技巧。最常见的判决理由是对话语气和互动动态,许多参与者依赖直觉判断。
这些结果引发了一些重要的问题:LLM通过图灵测试意味着什么?人类在智力上被AI超越了吗?尽管GPT-4.5-PERSONA在两项研究中的胜率显著高于偶然性,但这主要归功于特定的角色提示。因此,系统的行为不仅取决于模型本身,还取决于编写提示的AI研究员。
未来的研究可以探索更多实施方式,如延长测试时间或改变参与者群体,以更全面地评估LLM的能力。图灵测试本质上测量的是拟人性而非直接智能,但当机器智能逼近人类时,其他差异维度变得更为重要。最终,智能的多元性决定了任何单一测试都不具决定性。
此外,LLM的成功也可能带来广泛的社会影响。AI可以在短时间内与人类进行对话,而对话者无法分辨出差异。这可能导致人们花费越来越多的时间与这些“伪造的人类”互动,从而削弱真实人类互动的价值。如何检测这种欺骗成为了一个亟待解决的问题。尽管某些策略比其他策略更有效,但整个群体的辨别准确度相对均匀。未来的研究可以探索如何教授这些技巧,以提高人们辨别人类和机器的能力。
主题测试文章,只做测试使用。发布者:宫外财经,转转请注明出处:https://www.gongwai.cn/4534.html