首页 > 行业观察 > 图灵测试能判断AI智能吗?

图灵测试能判断AI智能吗?

新知榜官方账号

2023-12-07 16:03:22

图灵测试能判断AI智能吗?

UCSD的研究人员通过设计图灵测试,检验了包括GPT-4、GPT-3.5、ELIZA以及人类参与者在内多个AI系统与人类的区别能力。结果发现,60年前基于规则的老AI系统ELIZA的表现不但超过GPT系列模型,还达到了27%的成功率,仅次于人类参与者的63%成功率。这一结果颠覆了我们对新型AI模型智能水平的传统认知,同时也突显出了图灵测试本身存在的问题。

当下,就该如何看待这个惊世结果,图灵测试作为AI测评方法是否还可靠,业内各方观点不一。我们不妨先回顾这次测试的全过程,看看背后都发生了什么。整个测试采用了类似即时通讯软件的界面,由人类审问员与AI系统或其他人类见证者随机匹配。交流结束后,审问员需要判断见证者的身份,并给出信心度评分。

研究人员测试了GPT-4等多种模型,采用不同的提示词,让AI系统学习特定的回复方式。而老AI系统ELIZA沿用了1966年的规则和模板。结果显示,尽管经过专门训练,GPT-4的最高成功率也只有41%,略高于部分GPT-3.5模型的14%。而ELIZA的成功率高达27%,不但超过所有GPT-3.5模型,还超过了几个GPT-4提示词版本。更令人惊讶的是,就算身为人类,参与测试的人类见证者也只达到了63%的成功率。这一结果和之前研究者对人类识别自身的预期成功率有很大的差距。无独有偶,今年5月一项类似的图灵测试显示,人类正确识别其他人类的概率约为73%。也就是说,即使是人对人的交流,判断错误的概率也高达30%。

这些令人震惊的结果无疑让图灵测试的魅力大不如前。业界也出现了分歧。针对此,OpenAI研究员Emily表示,ELIZA之所以会表现好于GPT,是因为它使用了简单的模式匹配,没有明显暴露AI的特征,而GPT模型始终有可能露出马脚。所以这次测试并不能看做对GPT-4实力的质疑。但有专家则指出,这正凸显出图灵测试本身的局限性。因为参与者的判断很大程度上取决于主观看法,所以测试结果并不能完全反映出AI和人类智能的差距。

无论如何看待这次结果,一个事实已经很明确:图灵测试未必是一个公正且有效的AI评定方法。一位业内评论人士甚至表示,这可能是图灵测试魅力彻底消减的转折点。未来,人们或许会逐渐放弃图灵测试,转而通过其他方式测试AI系统,如让AI解释自己的思路,检查生成内容的逻辑性等。这样或许能更加直接地评估AI的真实水准。当然,业界主流声音仍然是保守且开放的。除继续探索AI评测新方法外,也有建议继续保留图灵测试,只是不再赋予其终极智能鉴定的地位。

无论前景如何,这次测试为业界提供了宝贵经验。对开发者而言,有必要反思如何让AI系统更贴近真实世界,提高情境意识。因为许多参与者就是通过询问时间地点等情况来识别AI的。对业界决策者而言,则需审视图灵测试的地位,不妨适当结合其他测试方式,从多角度评估AI系统,防止出现类似的“骗局”。当然,读者们也不妨反思,这次结果中人类表现并不尽如人意,你我日常生活中判断他人身份的准确度又会高到哪里?这是否预示着,未来AI进一步模拟人类行为的可能性?不管怎样,这次测试为大众提供了另一角度审视人机鸿沟,也为AI评测提供了借鉴。你认为业界会如何看待和应对这一结果?AI通过图灵测试之日还会远吗?欢迎在评论区畅所欲言。

本页网址:https://www.xinzhibang.net/article_detail-22206.html

寻求报道,请 点击这里 微信扫码咨询

关键词

图灵测试 AI智能 ELIZA

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯

ChatGPT,Midjourney,文心一言,文心一格,bing新必应,Stable diffusion,文心一格,稿定设计,墨刀AI,mastergo,Adobe Firefly

短视频知识人物影响力榜

查看更多

新知榜独家 {{faTime.effecttime}}发布

总榜

人物 领域 粉丝数 影响力指数

{{item.manIndex}}

{{item.nickname}} {{item.field}}

{{item.fs}}

{{item.effect}}