新知榜官方账号
2023-08-23 10:20:23
自然语言处理(NLP)领域中,语言命名是非常重要的。通常,NLP的研究中,英语被认为是具有足够代表性的语言,而其他语言则被认为是“特殊语言”。这种观点导致了高资源语言与低资源语言的数字鸿沟。高资源的语言种类只有很少几种,包括英语、汉语、阿拉伯语和法语等。这些语言具有大量的可访问文本和语音资源,以及注释资源如树图资料库(treebank)和评估集。但是,世界上其他7000多种语言则只有极少的资源或没有。此外,世界各地的研究人员在主要的NLP会议上发表的研究工作都集中在高资源语言上,且不成比例地集中在英语上。
此外,英语不能代表全部语言。英语是一种口头语言,而不是符号语言。它有一个完善的、长期使用的、大致是基于发音拼写系统(phone-based orthographic system),且大部分英语写作通常只使用在每台计算机上都能找到的低位ASCII字符。此外,英语的标准化拼写法提供了一个成为“word”的概念,不同“word”之间会有一个空格留白。然而并不是所有语言都有这个特点,例如汉语、日语、泰语等,对于这些语言,它们的NLP任务都必须从分词开始。
因此,语言命名是非常重要的。BenderRule原则提出了“始终注明你正在使用的语言”的指导方针,以帮助NLP领域扩大范围,超越英语和少数几种精心研究的语言。同时,数据声明的概念也被提出来,以解决数据偏见的问题。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49