新知榜官方账号
2023-10-01 02:46:26
本文主要介绍首届中文NL2SQL挑战赛的背景及数据集,重点关注NL2SQL的概念、发展进程以及挑战赛的解决方案。同时,本文也提供了基线模型的GitHub链接以及可以优化的三个方向:更好的输入特征、更合理的模型结构、将表格内数据结合进模型中。
NatureLanguageToSQL是将自然语言转化为SQL查询语句,从而检索需要的信息。本质上它是将自然语言转化为机器语言,从而执行某些特殊的任务。该任务的重点即能解析自然语言的语义,并将这些语义编码为计算机能理解并执行的语句。
与此类似的研究还有将GUI界面转化为形式化代码、学会编辑源代码等等。它们尝试利用深度网络抽取图像或文本的语义信息,并根据这些语义信息生成对应代码。所以不论是自然语言转Python还是C++代码,它们与NL2SQL的思想都是相同的。
首届中文NL2SQL挑战赛旨在通过NL2SQL赛题,拉近用户与结构化数据间的距离,这样机器不仅能理解我们的问题,同时还能从数据库中自行找到答案。整个赛题使用金融以及通用领域的表格作为数据源,并提供标注的自然语言与SQL语句对,选手可以利用数据训练出能自动生成SQL语言的模型。
数据集包含有约4500张表格,且基于这些表格提出了50000条自然语言问句,以及对应的SQL语句。数据都是通过爬取并解析公开数据源中的表格而获得的,然后通过人工标注就能构建提问与对应SQL语句。训练数据包括4万条有标签数据和1万条无标签数据作为测试集。
基线模型使用Python2.7和torch1.0.1构建,采用了双向LSTM来对自然语言问句及列名进行编码,从而得到相应的向量表征。模型需要根据table_id检索对应的表格,然后再根据question再对应表格中检索信息,并生成对应的SQL表达式。其中,LogicFormAccuracy和ExecutionAccuracy是模型评估的两个指标。
选手可以从更好的输入特征、更合理的模型结构以及将表格内数据结合进模型中三个方向出发修改基线模型。
相关工具
相关文章
相关快讯
推荐
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49
国产GLM-4.5把AI价格打到地板价,实测强到离谱!
2025-07-30 09:08
用AI批量生成治愈系漫画,月入2000+
2025-07-29 09:59
千亿市场规模背后,AI短剧商业化迎来爆发期?
2025-07-17 09:19
15个作品涨粉26万!AI历史账号又出王炸案例!
2025-07-09 09:37
亲测真香!这6个AI工具让工作效率翻倍,同事追着问链接
2025-06-17 16:21
FLUX.1 Kontext 一出,AI生图领域 “地震” 了!
2025-06-06 15:38
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15