首届中文NL2SQL挑战赛正式开始,选手能否将自然语言转化为SQL查询语句?

新知榜官方账号

2023-10-01 02:46:26

背景

本文主要介绍首届中文NL2SQL挑战赛的背景及数据集,重点关注NL2SQL的概念、发展进程以及挑战赛的解决方案。同时,本文也提供了基线模型的GitHub链接以及可以优化的三个方向:更好的输入特征、更合理的模型结构、将表格内数据结合进模型中。

NatureLanguageToSQL概念

NatureLanguageToSQL是将自然语言转化为SQL查询语句,从而检索需要的信息。本质上它是将自然语言转化为机器语言,从而执行某些特殊的任务。该任务的重点即能解析自然语言的语义,并将这些语义编码为计算机能理解并执行的语句。

与此类似的研究还有将GUI界面转化为形式化代码、学会编辑源代码等等。它们尝试利用深度网络抽取图像或文本的语义信息,并根据这些语义信息生成对应代码。所以不论是自然语言转Python还是C++代码,它们与NL2SQL的思想都是相同的。

挑战赛介绍

首届中文NL2SQL挑战赛旨在通过NL2SQL赛题,拉近用户与结构化数据间的距离,这样机器不仅能理解我们的问题,同时还能从数据库中自行找到答案。整个赛题使用金融以及通用领域的表格作为数据源,并提供标注的自然语言与SQL语句对,选手可以利用数据训练出能自动生成SQL语言的模型。

数据集包含有约4500张表格,且基于这些表格提出了50000条自然语言问句,以及对应的SQL语句。数据都是通过爬取并解析公开数据源中的表格而获得的,然后通过人工标注就能构建提问与对应SQL语句。训练数据包括4万条有标签数据和1万条无标签数据作为测试集。

基线模型

基线模型使用Python2.7和torch1.0.1构建,采用了双向LSTM来对自然语言问句及列名进行编码,从而得到相应的向量表征。模型需要根据table_id检索对应的表格,然后再根据question再对应表格中检索信息,并生成对应的SQL表达式。其中,LogicFormAccuracy和ExecutionAccuracy是模型评估的两个指标。

选手可以从更好的输入特征、更合理的模型结构以及将表格内数据结合进模型中三个方向出发修改基线模型。

本页网址:https://www.xinzhibang.net/article_detail-14650.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯