新知榜官方账号
2023-10-01 02:46:26
本文主要介绍首届中文NL2SQL挑战赛的背景及数据集,重点关注NL2SQL的概念、发展进程以及挑战赛的解决方案。同时,本文也提供了基线模型的GitHub链接以及可以优化的三个方向:更好的输入特征、更合理的模型结构、将表格内数据结合进模型中。
NatureLanguageToSQL是将自然语言转化为SQL查询语句,从而检索需要的信息。本质上它是将自然语言转化为机器语言,从而执行某些特殊的任务。该任务的重点即能解析自然语言的语义,并将这些语义编码为计算机能理解并执行的语句。
与此类似的研究还有将GUI界面转化为形式化代码、学会编辑源代码等等。它们尝试利用深度网络抽取图像或文本的语义信息,并根据这些语义信息生成对应代码。所以不论是自然语言转Python还是C++代码,它们与NL2SQL的思想都是相同的。
首届中文NL2SQL挑战赛旨在通过NL2SQL赛题,拉近用户与结构化数据间的距离,这样机器不仅能理解我们的问题,同时还能从数据库中自行找到答案。整个赛题使用金融以及通用领域的表格作为数据源,并提供标注的自然语言与SQL语句对,选手可以利用数据训练出能自动生成SQL语言的模型。
数据集包含有约4500张表格,且基于这些表格提出了50000条自然语言问句,以及对应的SQL语句。数据都是通过爬取并解析公开数据源中的表格而获得的,然后通过人工标注就能构建提问与对应SQL语句。训练数据包括4万条有标签数据和1万条无标签数据作为测试集。
基线模型使用Python2.7和torch1.0.1构建,采用了双向LSTM来对自然语言问句及列名进行编码,从而得到相应的向量表征。模型需要根据table_id检索对应的表格,然后再根据question再对应表格中检索信息,并生成对应的SQL表达式。其中,LogicFormAccuracy和ExecutionAccuracy是模型评估的两个指标。
选手可以从更好的输入特征、更合理的模型结构以及将表格内数据结合进模型中三个方向出发修改基线模型。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49