ChatGPT在文本标注任务中表现优于众包工作平台和人类工作助理

新知榜官方账号

2023-08-22 11:20:28

背景介绍

很多NLP应用程序需要为各种任务手动进行大量数据注释，特别是训练分类器或评估无监督模型的性能。根据规模和复杂程度，这些任务可能由众包工作者在MTurk等平台上以及训练有素的标注人（如研究助理）执行。然而，AI的进化使得淘汰掉的第一批人，就是帮AI训练的人。

ChatGPT在注释任务中的表现

来自苏黎世大学的研究者证明了ChatGPT在多项注释任务（包括相关性、立场、主题和框架检测）上优于众包工作平台和人类工作助理。此外，ChatGPT的每条注释成本不到0.003美元，大约比MTurk便宜20倍。这些结果显示了大型语言模型在大幅提高文本分类效率方面的潜力。

实验过程

研究人员使用了2382条推文样本，并将任务作为零样本分类提交给ChatGPT和MTurk众包工作者，然后根据两个基准评估了ChatGPT的性能。结果发现，在五分之四的任务上，ChatGPT的零样本准确率高于MTurk。对于所有任务，ChatGPT的编码器协议都超过了MTurk和训练有素的注释者。此外在成本上，ChatGPT比MTurk便宜得多：五个分类任务在ChatGPT（25264个注释）上的成本约为68美元，在MTurk（12632个注释）上的成本约为657美元。这么一算，ChatGPT的每条注释成本约为0.003美元，即三分之一美分——比MTurk便宜约20倍，而且质量更高。

结论

这些结果表明，使用大型语言模型进行文本分类可以大幅提高效率，并且可以降低成本。研究人员表示，虽然需要进一步研究以更好地了解ChatGPT和其他LLM如何在更广泛的环境中发挥作用，但这些结果表明它们有可能改变研究人员进行数据注释的方式，并破坏MTurk等平台的部分业务模型。

本页网址：https://www.xinzhibang.net/article_detail-10218.html

寻求报道，请

关键词

分享至微信：

相关工具

原创度和AI内容检测

Smodin AI Content Detector

多语种AI内容检测工具

GPTZero

超过百万人都在用的免费AI内容检测工具

GPT Detector

在线检查文本是否由GPT-3或ChatGPT生成

Winston AI

强大的AI内容检测解决方案

Writecream AI Content Detector

Writecream推出的AI内容检测工具

微软宣布PowerPointLive全面上线，观众可自主浏览幻灯片

微软宣布PowerPointLive全面上线，观众可自主浏览幻灯片今年早些时候，微软宣布了PowerPoint、Word和Excel的全新AI体验。现在，据Microsoft365博客上发表的新帖，PowerPoint的“动态演示”（LivePresentation）功能已全面上线。通过PowerP

分类标签 PowerPointLive观众浏览人工智能

11-21 10:09

科大讯飞发布K12适龄同步学标准，推出AI翻译笔P20系列

科大讯飞发布K12适龄同步学标准，推出AI翻译笔P20系列2022年6月23日，科大讯飞新款AI翻译笔P20系列发布会召开，科大讯飞副总裁章继东先生、上海外国语大学高级翻译学院孙海琴老师、华东师范大学心理与认知科学学院庞维国老师等出席发布会，从生理、心理、思维等多方面，探讨了当下儿童英语学习现状及未

分类标签科大讯飞K12AI翻译笔P20

11-08 00:08

5款人工智能工具推荐

多米智多米智是一款智能写作小程序，通过输入关键词或标题，自动生成内容丰富、条理清晰的文章。对于写作困难的人来说，这是一个非常有用的工具。用户可以根据自己的需求和喜好进行选择，并及时调整内容，最终形成一篇完整且高质量的文章。BeautifulAIBeautifulAI是一款PPT制作工具，用户只需要选

分类标签多米智BeautifulAIARC实验室智影歌曲生成器

11-06 10:13

我所了解的机器视觉检测产品应用

我所了解的机器视觉检测产品应用随着科技的发展，机器视觉产品也有了新的变化，下面是笔者整理分享的关于机器视觉检测产品的相关内容，想要了解机器视觉产品应用的同学，一起接着往下看看吧！一、机器视觉检测产品在新能源汽车和电池制造应用 1. 机器视觉在新能源汽车和电池生产制造过程中的应用越来越广泛，主要包

分类标签机器视觉产品应用新能源汽车

11-01 08:05

AI2.0时代，内容型产品的增长之道

AI2.0时代，内容型产品的增长之道2023年9月9—10日，人人都是产品经理联合腾讯大讲堂举办的【2023产品经理大会（北京站）】完美落幕。字节跳动前业务增长负责人朱凯老师为我们带来《AI2.0时代，内容型产品的增长和变现之道》为题的分享，本文为演讲内容实录。目前大会回放已上架，戳此购买，即可收看

分类标签 AI内容型产品增长变现内容生产模式人工智能

11-01 08:04

Saladict（沙拉查词）——聚合多种翻译工具的页面划词翻译工具

Saladict（沙拉查词）——聚合多种翻译工具的页面划词翻译工具你喜欢用什么翻译工具？谷歌翻译？谷歌词典？必应词典？有道词典？还是剑桥词典？不要选了，全都要。使用Saladict。Saladict是一款聚合了几乎所有主流的翻译工具的页面划词翻译工具，通过划词，并行翻译，供你选择最合适的那个。它支持

分类标签 Saladict翻译工具页面划词

10-08 01:06

10款非常有用的Chrome插件推荐

Chrome插件推荐Chrome插件像一个个小帮手，帮我们提升效率，完成一些有价值的事情。其实有很多这样的优质实用插件，很多人并不知道它们的存在，下面就特意为大家整理10款非常有用的插件。哔哩哔哩助手B站扩展程序拥有视频区和直播区的人性化功能。它可以提供：视频下载和弹幕下载、视频画面截取、推送管理和

分类标签 Chrome插件实用工具网页截图音乐识别网页翻译Markdown编辑器流量统计屏幕录制壁纸更换视频下载

10-08 01:04

商汤科技展示以大装置赋能大模型的最新实践成果

6月2日，商汤科技展示了多项以大装置赋能大模型的最新实践成果，包括气象预测、自动驾驶、遥感、游戏以及大语言模型等众多领域，并与中国信息通信研究院联合预发布《新型AI智算基础设施白皮书》，将从多个层面解析新型AI基础设施的发展特征和建设需求，以适应生产范式的重大转变，支撑AI发展进入2.0阶段。商汤大

分类标签商汤科技大装置大模型AI智算基础设施SenseCore

09-24 10:18

商汤发布2023年中期财报，生成式AI相关收入同比增长670.4%

商汤发布了2023年中期财报，生成式AI相关收入同比增长670.4%，智慧商业板块表现突出，实现收入8.54亿元，同比增长50.2%，占集团总收入比重从40.2%上升至59.5%。这表明商汤已经成为了大模型行业的领先者之一。商汤自2018年起便致力于AI大模型的研发，有着超过5年的技术积淀和实践经验

分类标签商汤大模型生成式AI智慧商业智慧生活闭源模型

09-24 10:16

AI测试的迷思及其现状

AI测试的迷思及其现状近年来，我一直关注AI相关的测试，并积极参与多个全国性测试社区和社群。在这些社区中，我与不同公司和领域的测试专家交流探讨AI测试相关话题，包括业界顶尖公司的专家和国内知名测试学者。我也参加了多个大会，聆听了许多关于AI测试的主题分享，并尝试了多款AI相关的测试工具，从中获得了许

分类标签 AI测试自动化测试测试工具

09-18 19:38

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway