OpenAI推出新的AI分类器,用于区分文本是否是由AI编写的

新知榜官方账号

2023-07-08 18:26:29

OpenAI推出新的AI分类器,用于区分文本是否是由AI编写的

过去几个月,由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT在全球范围内掀起狂热之风。为了帮助用户判断哪些内容是由ChatGPT生产的,包括OpenAI、斯坦福大学等多家机构开始研究相应的AI内容识别工具。

近日,OpenAI推出一个经过训练的分类器,用以区分文本是否是由AI编写的。据其介绍,该分类器虽然不可能可靠地检测所有AI编写的文本,但能够通过提供信息来减少AI生成式文本是由人工编写的误判:例如,执行自动虚假内容营销,利用AI工具进行学术欺诈,以及将AI聊天机器人定位为人类。

据悉,该分类器是一种语言模型,该模型对基于同一主题的人工编写文本和AI编写文本的数据集进行不断调整。OpenAI从人工编写的各种来源收集数据集,例如预训练数据以及提交到InstructionGPT的各种人工的演示,将每个文本分为提示和响应。根据提示,可以从分类器以及其他组织训练的各种不同语言模型中生成响应。OpenAI调整了WebApp的置信度阈值,可以保持较低的误报率。换句话说,只有分类器非常有把握的时候,才会将文本标记为可能是AI编写的。

目前,该分类器的准确性还很低。据悉,OpenAI对英语文本“ChallengeSet”进行了评估,分类器正确地将26%AI编写的文本(真阳性)识别为“可能是AI编写的”,而错误地将9%人工编写的文本标记为AI编写的(假阳性)。OpenAI表示,目前该分类器仍存在局限性,所以不应该将它作为主要决策工具,而应该作为确定文本来源的其他方法的补充。

具体来说:分类器在短文本(1,000个字符以下)上非常不可靠。甚至更长的文本有时也会被错误标记。有时,人工编写的文本会被错误但自信地标记为AI编写。建议仅对英语文本使用分类器。它在其他语言中的表现明显较差,代码不是很有效。无法可靠地识别已经十分确定的文本。例如,无法预测前1,000个素数的列表是AI还是人写的,因为谁来写都是一样的。编辑AI编写的文本可以避开分类器。虽然所有类似的分类器可以通过成功的检测来更新算法并重新训练,但目前还不清楚这种检测是否可以具有长期优势。众所周知,基于神经网络的分类器除了训练数据外的其它的校准效果很差。如果输入的文本与训练集中的非常不一样,分类器多半会得到错误的预测。OpenAI认为,分类器的可靠性,通常会随着输入文本长度的增加而提高。与OpenAI此前发布的分类器相比,新的分类器对来自最新AI系统编写的文本会更加有效。

参考链接:https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/

本文转载来源:https://www.infoq.cn/news/1Sb8qfMAjMivNCWtxRdV

本页网址:https://www.xinzhibang.net/article_detail-7087.html

寻求报道,请 点击这里 微信扫码咨询

关键词

OpenAI ChatGPT AI内容识别工具

分享至微信: 微信扫码阅读

相关工具

相关文章