新知榜官方账号
2023-10-30 10:04:15
表情包已经成为我们日常生活中不可或缺的一部分,但是表情包上的文字无法被搜索、无法被计算机监测,不便于识别和使用。因此,Facebook推出了一款名为Rosetta的AI,可以识别表情包上的文字,并能用于照片搜索、识别菜谱、辅助视力障碍者等多个功能。
Rosetta的识别过程不同于普通的OCR,它使用FasterR-CNN识别出有字的区域后,再进行文字识别。具体步骤包括训练一个可以将图像表示为卷积特征映射的CNN,训练一个区域提议网络(regionproposalnetwork,RPN),将图片分为宽5高7共35个小特征图作为输入,RPN找到一些看起来有文字的目标区输出,从每个区域特征图中提取信息,用分类器识别,之后按提案置信度排序,选择最靠谱的提案。Rosetta使用的模型结构包括FasterR-CNN检测字符和有CTC损失的ResNet-18完全卷积模型进行文字识别。在训练中,Facebook使用了Caffe2支持的Detectronframework和LSTM来提高模型准确性,并采用特殊的训练技巧来保证模型稳定和准确。
Rosetta需要学习的语言种类太多,所以Facebook除了用人类手工标注的数据之外,还找了一些机器生成的数据集,也就是,找一个AI数据民工,强行给一些无辜的图片加字。这样,批量生产的带字图片就自带了标注,一个AI生产数据,喂给另一个AI来训练,自给自足。如果以后的模型都用AI生产的数据来喂养的话,估计几十年后不少模型的卖点就变成了:“人类标注,手动调参,纯天然原生态,古早味模型。”
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16