机器学习不能解决自然语言理解问题

新知榜官方账号

2023-09-25 02:34:46

自然语言理解与机器学习

自然语言理解（NLU）是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。近年来，机器学习虽然被广泛使用，但是却不能很好的解决自然语言理解问题，其中可能涉及很多原因，ONTOLOGIK.AI的创始人和首席NLU科学家WalidSaba给出了自己的观点。

20世纪90年代早期，一场统计学革命取代了人工智能，并在2000年达到顶峰，而神经网络凭借深度学习成功回归。这一经验主义转变吞噬了人工智能的所有子领域，其中这项技术最具争议的应用领域是自然语言处理。以数据为驱动的经验方法在NLP中被广泛使用的原因主要包括：符号和逻辑方法在取得三十年的霸权后未能产生可扩展的NLP系统，从而导致NLP中所谓的经验方法（EMNLP）兴起，这些方法可以用数据驱动、基于语料库、统计和机器学习来统称。

这种向经验主义转变的背后动机非常简单：在我们对语言是如何工作、以及语言如何与日常口语中谈论的世界知识相关联的，在对这些了解之前，经验和数据驱动的方法有助于构建文本处理应用程序。正如EMNLP的先驱之一KennethChurch所解释的那样，在NLP领域，倡导数据驱动和统计方法的科研人员，他们对解决简单的语言任务感兴趣，其动机从来不是暗示语言就是这样工作的，而是做简单的事情总比什么都不做要好。

这种被误导的趋势导致了一种不幸的情况：坚持使用大型语言模型（largelanguagemodel,LLM）构建NLP系统，这需要巨大的计算能力，而且试图通过记忆大量数据来接近自然语言对象，这种做法是徒劳的。这种伪科学的方法不仅浪费时间和资源，而且会误导新一代的年轻科学家，错误地让他们认为语言就是数据。更糟糕的是，这种做法还阻碍了自然语言理解（NLU）的发展。

自然语言处理VS自然语言理解

虽然自然语言处理（NLP）和自然语言理解（NLU）经常互换使用，但是两者之间存在实质性差异，突出这种差异至关重要。事实上，区分自然语言处理和自然语言理解之间的技术差异，我们可以意识到以数据驱动和机器学习的方法虽然适用于NLP任务，但这种方法与NLU无关。

在NLP中最常见的下游任务包括：摘要；主题抽取；命名实体识别；语义检索；自动标签；聚类。上述任务与PAC（ProbablyApproximatelyCorrect,可能近似正确）范式一致。具体地，NLP系统的输出评估是主观的：没有客观的标准来判断诸如一个摘要优于另一个，或某个系统提取的主题、短语比另一个系统提取的更好等等。然而，自然语言理解不允许有这样的自由度。要完全理解一个话语或一个问题，需要理解说话者试图表达的唯一思想。

总而言之，对普通口语的真正理解与单纯的文本（或语言）处理是完全不同的问题。在文本（或语言）处理中，我们可以接受近似正确的结果——结果在可接受的概率下也是正确的。通过这个简短的描述，我们应该可以清楚地了解为什么NLP与NLU不同，以及为什么NLU对机器来说是困难的。

缺失文本现象的挑战

NLU难点在于缺失文本现象所谓的缺失文本现象（missingtextphenomenon,MTP），可以将其理解为NLP任务挑战的核心。在语言交流中，有两种可能的优化方案：（1）说者可以压缩（和最小化）在编码中发送的信息量，并希望听者在解码（解压缩）过程中做一些额外的工作；（2）说者尽最大努力传递所有必要的信息来传达思想，而听者几乎什么也不用做。遗漏的信息对于说者和听者来说，是可以通过安全假设获得的信息，这正是我们经常说的普通背景知识。

然而，一个概念与实际（不完美）实例不同，在完美的数学世界中也是如此。在应用科学（工程、经济学等）中，我们可以认为这些对象是相等的，如果它们在值上是相等的，但在认知中，这种相等是不存在的。因此，机器学习和数据驱动方法并不能很好的解决NLU问题。虽然机器学习被广泛使用，但是却不能很好的解决自然语言理解问题，其中可能涉及很多原因，本文分析了机器学习和数据驱动方法与NLU无关的三个原因。

本页网址：https://www.xinzhibang.net/article_detail-13537.html

寻求报道，请

关键词

自然语言理解 NLU 机器学习数据驱动缺失文本现象语义

分享至微信：

相关工具

Codiga

AI代码实时分析

Boxy

CodeSandbox推出的AI编程助手

AskCodi

你的个人AI编程助手

Codeium

AI代码生成和补全

AirOps

AI SQL语句生成和修改

Fronty

AI智能将图片转换成HTML和CSS代码

语音识别概念与技术

语音识别概念与技术语音识别是将人类语音转换为计算机可读的输入的技术。在语音识别过程中，包括语音信号采集、特征提取、模型训练、模型测试和应用部署。语音识别流程语音信号采集、特征提取、模型训练、模型测试和应用部署是语音识别的流程。语音识别算法常见的语音识别算法有隐马尔科夫模型、最大熵模型、支持向量机和深

分类标签语音识别算法麦克风

12-07 22:47

为什么越想让业绩增长越难增长，如何让业绩顺其自然且高效增长老陈的深度思考

为什么越想让业绩增长越难增长，如何让业绩顺其自然且高效增长老陈的深度思考业绩增长是企业的核心目标之一，但是很多企业却发现，越是想让业绩增长，反而越难增长。这是为什么呢？首先，我们需要明确一点，企业的业绩增长不能仅仅依靠销售人员的努力，它需要全企业的共同努力。而在实际操作中，往往存在以下问题：过分依赖

分类标签业绩增长高效增长市场产品经理

12-06 08:01

iPhone6s HeySiri功能随时启用，但不会泄露隐私

iPhone6s HeySiri功能随时启用，但不会泄露隐私在刚发布不久的苹果iPhone6s和iPhone6sPlus上有不少亮点，其中就包括可一直处于待命状态的新版“HeySiri”功能，有人担心这项新特性会导致“一呼百应”的尴尬情况，其实大可放心。得益于A9/A9X处理器中集成了M9协处理器，

分类标签 iPhone6sHeySiri语音控制

12-06 04:24

iOS9功能抄袭安卓？用户才是赢家

iOS9功能抄袭安卓？用户才是赢家近日发布的iOS9可谓吸引了众多果粉目光，尤其LightShift功能可谓是深深动摇了那些固守在iOS8的粉丝的心。似曾相识？没错，和f.lux插件功能基本一致，f.lux是一款会根据时间变化，自动调节电脑屏幕的亮度、色彩，让电脑、手机屏幕始终适合保持在适合阅读的状

分类标签 iOS9安卓抄袭

12-06 04:23

微软新一代语音合成模型NaturalSpeech2：零样本语音合成的跨越式发展

背景介绍近期微软推出了语音合成模型NaturalSpeech2，只需几秒提示语音即可定制语音和歌声，实现了零样本语音合成的跨越式发展。在TTS领域，微软亚洲研究院机器学习组和微软Azure语音团队早已深耕多年，并在近期推出了语音合成模型NaturalSpeech2，只需几秒提示语音即可定制语音和歌声

分类标签微软语音合成NaturalSpeech2

12-06 04:22

大模型在智能汽车中的应用趋势

近年来，大模型在智能汽车中的应用越来越广泛，越来越多的车企通过自研或合作的方式上车大模型。大模型将对汽车的智能化进行多方面赋能，包括增强语音交互、助力自动驾驶、提高内容生成等。目前，大模型在智能汽车中的应用仍存在多模态数据融合、云端算力需求大、车端部署、以及安全性和一致性等问题。随着模型的优化和技术

分类标签大模型智能汽车自动驾驶

12-06 04:21

华为推出语音助手Celia，可通过HeyCelia唤醒Siri

华为推出语音助手Celia，可通过HeyCelia唤醒Siri3月27日消息，在开通Siri的iPhone上喊出华为P40系列发布会上语音命令HeyCelia（西莉亚，[ˈsiːlɪə]），可以唤醒Siri让人意外，但这不是个例，不少网友反馈，IT之家也尝试了一番，发现通过HeyCelia语言能够近

分类标签华为语音助手Celia

12-06 04:20

自然语言界面：开启人机交互的全新篇章

自然语言界面：开启人机交互的全新篇章随着人工智能技术的发展和普及，自然语言界面逐渐成为了人机交互的重要方式之一。自然语言界面指的是通过自然语言进行交互的界面，即人们可以使用自然语言（如中文、英文等）与计算机进行交互，而不需要通过鼠标、键盘等输入设备。自然语言界面的应用范围非常广泛，包括语音识别、智能

分类标签自然语言界面人机交互用户体验设计

12-04 08:00

2步打通ModelArts和Astro实现AI应用落地

引言随着GPT火爆全球，人工智能（AI）逐渐成为当今最具创新性和前景的技术之一，它可以为各行各业带来巨大的价值和变革。然而，AI应用的开发和部署并不是一件容易的事情，它需要涉及数据处理、算法开发、模型训练、应用构建、部署管理等多个环节，而且需要有专业的技术人员和复杂的工具链。对于很多企业来说，这是一

分类标签 ModelArtsAstroAI应用机器学习深度学习低代码开发平台

11-28 02:10

ChatGPT及其应用

ChatGPT及其应用今年初，一种名为ChatGPT的智能对话机器人模型开始了全球范围内的人类智能热潮，不知道大家听说过没有呢？简单来了解一下，这个模型是由OpenAI公司推出的，采集并利用了深度学习捕捞练习模型来真实对话，具有自然性和流畅性。在未来，ChatGPT这种基于大规模自然语言处理技术的人

分类标签 ChatGPT智能对话机器人人工智能

11-28 02:09

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway