新知榜官方账号
2023-09-16 03:40:41
经过三个月的“隐蔽模式”研发,国内新锐算法公司虎博科技于6月6日发布并开源其自研大模型TigerBot,同步发布大模型应用开发所需的全套API并提供多领域专业数据,旨在构建大模型生态蓝图。据悉,Tigerobot在经典公开NLP语料测试中表现不俗,效果逼近OpenAI同等大小模型的96%,更在推理式问答等个别领域表现亮眼。Tigerbot是虎博科技自研的多语言多任务大规模语言模型,致力于改善人们的工作流以提高效率,将成为人们工作必备的外脑搜索引擎之一。参与评测的TigerBot-7B是其第一版MVP,经历了3000次实验迭代。目前,虎博科技创始人兼CEO陈烨持续带领团队改进,已迭代出同等大小且表现优于OpenAI的新模型,并将在近期更新发布。
根据OpenAIInstructGPT论文在公开NLP数据集上的自动评测,TigerBot-7B已达到OpenAI同样大小模型的综合表现的96%,这得益于虎博科技在GPT和BLOOM基础上,对模型架构和算法进行了多项创新优化,包括指令完成监督微调的创新算法,以提升可学习型;运用ensemble和probabilisticmodeling的方法,实现更可控的事实性和创造性;在并⾏训练上,突破了deep-speed等主流框架中若⼲内存和通信问题,使得在千卡环境下可实现数⽉⽆间断等。此外,经对中⽂语⾔的更不规则的分布,虎博科技从tokenizer到训练算法等方面做了针对性算法优化,使得模型的问答更具中国文化属性。
此次开源内容包含模型、代码、数据三部分,包含TigerBot-7B-sft、TigerBot-7B-base、TigerBot-180B-research等多个模型版本,经基本训练且覆盖双卡推理180B模型的量化和推理代码,以及高达100G的预训练数据和监督微调1G或100万条数据。值得一提的是,TigerBot-7B-base的综合表现优于同等可比的OpenAI和BLOOM,TigerBot-180B-research的参数量达1800亿,或是目前业内最大的大规模语言模型,而高达100G的预训练数据,更被视为目前业内最大且质量最优的开源预训练数据之一。同时,虎博科技还将开放大量的金融、法律、百科等领域专业数据,供应用开发者使用。
“此等一生难遇一次的大机遇,是吾辈之幸事!”在人工智能领域从业20年后,陈烨对大模型的横空出世发表了真挚的言辞,更激发了他内心年少时的激情。他认为,推进人类文明的技术变革往往源于本能、直觉和偶然性,而拥有自由的创新精神是根本。大模型技术就像是一门新兴学科,其未来的可能性将超过每个人的想象,他表示,现阶段过早和过于理性地探讨产品、应用、场景和商业化或许没有必要,更重要的是推广这一人工智能基础设施的原创突破,促进技术的发展和更新。“它将是颠覆式且长周期的。”
秉持科学创新无国界、无阶层的信念,虎博科技将以全套API形式开源Tigerbot的阶段性成果,试图与广大大模型应用开发者共同构建大模型生态蓝图,通过生态的发展反哺促进大模型能力迭代,让技术和产业发展共荣共生,共同打造中国的世界级应用。据悉,虎博科技成立于2017年,以让人们获取知识更简单为愿景,致力于通过深度学习、自然语言处理等世界前沿技术,深入挖掘全球各行业信息,以可视化的问答方式呈现关键内容。同时,以贴近一线的视角精准洞察行业痛点,将核心技术产品化,帮助企业在日常运营、产品体验等多方面高度提效。截至目前,虎博科技融资额超越同阶段AI+NLP领域其他企业。
 微信扫码咨询    
 相关工具 
 
 相关文章 
 推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49