新知榜官方账号
2023-10-30 10:04:15
表情包已经成为我们日常生活中不可或缺的一部分,但是表情包上的文字无法被搜索、无法被计算机监测,不便于识别和使用。因此,Facebook推出了一款名为Rosetta的AI,可以识别表情包上的文字,并能用于照片搜索、识别菜谱、辅助视力障碍者等多个功能。
Rosetta的识别过程不同于普通的OCR,它使用FasterR-CNN识别出有字的区域后,再进行文字识别。具体步骤包括训练一个可以将图像表示为卷积特征映射的CNN,训练一个区域提议网络(regionproposalnetwork,RPN),将图片分为宽5高7共35个小特征图作为输入,RPN找到一些看起来有文字的目标区输出,从每个区域特征图中提取信息,用分类器识别,之后按提案置信度排序,选择最靠谱的提案。Rosetta使用的模型结构包括FasterR-CNN检测字符和有CTC损失的ResNet-18完全卷积模型进行文字识别。在训练中,Facebook使用了Caffe2支持的Detectronframework和LSTM来提高模型准确性,并采用特殊的训练技巧来保证模型稳定和准确。
Rosetta需要学习的语言种类太多,所以Facebook除了用人类手工标注的数据之外,还找了一些机器生成的数据集,也就是,找一个AI数据民工,强行给一些无辜的图片加字。这样,批量生产的带字图片就自带了标注,一个AI生产数据,喂给另一个AI来训练,自给自足。如果以后的模型都用AI生产的数据来喂养的话,估计几十年后不少模型的卖点就变成了:“人类标注,手动调参,纯天然原生态,古早味模型。”
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49