GPT奇点赋能大数据行业,不只是写SQL还有……——以数据全生命周期视角为例

新知榜官方账号

2023-07-04 22:02:47

1. 数据的生命周期

业务高速发展带动数据需求高涨,这与数据部门的应接能力之间存在博弈,这是摆在非天生数字化属性的行业的一道难题。理想中,业务需要的数据都有,都能找到,可以支持各种维度的解析和创新。而现实是,能用的数据有限(A),很多已经建设出来的数据,大家不认识,不敢用(B),多个雷同数据存在使得校对该用哪一个耗时耗力。很多沉睡数据,已经过时,占用着存储空间(D),使得数据存储成本连年上涨。缺失重要数据,需要排期开发(C)。

数据产生于业务各环节中,部分在online的业务系统中,另一部分散落在offline(比如,工厂),要将散落在各处的数据做好采集(人工录入、扫码、RFID),确保必要数据进入业务数据库中。之后,针对想做分析的数据,可以放入大数据平台的数仓中,通过数据集成工具,将结构化、非结构化多源异构数据汇聚到ODS层。根据数据建模方法,数据开发工程师做DWD和DWS层的加工建设,供业务的数据分析师使用(ADS层),做报表、配看板、提数等。为进一步提高数据消费效率,通过复用数据API的模式打通最后一公里,降低各系统分别对接的成本。针对一次性,或者长期不用的冷僵数据,做归档和删除处理,腾出宝贵的存储空间和计算资源。这套大数据平台,涉及平台管理能力,以及资产管理模块。而数据治理则横跨业务系统到数据平台的全生命周期中。

2. GPT介入后数据生命周期发生的变化

GPT打通大数据平台的数仓,以获取准确的元数据信息,这样在用户输入自然语言时,GPT能懂,并返回符合企业数据结构特征的结果。其次,GPT还具有coding的能力,所以当它跟企业内部各个系统打通后,还可以扩展能力,代替人,执行某些既定操作。下面,我们以大数据环境中,6个常见环节,GPT是如何辅助人类的逐一做拆解。

2.1 数据集成(聚)

GPT协助提效ETL:Extract-Transform-Load:抽取(extract)转换(transform)加载(load)目前的ETL工具较成熟(如:Kettle、Datastage、Informatica),数据开发人员可以通过输入和点击关键信息,自动生成调度任务,对于没有ETL工具的公司需要使用GPT。

2.2 数据开发&建模(养)

1)GPT代写SQL做数据建模和开发【前提】将表的元数据信息导给ElasticSearch,结合GPT与ElasticSearch服务,提高SQL生成结果的准确性。2)GPT代为配置数据质量监控告警【前提】GPT跟数据质量模块、调度模块、email、飞书等系统打通。

2.3 资产管理(治)

GPT代做冷僵数据归档和删除:【前提】GPT跟调度模块、资产管理模块、email、飞书等系统打通。

2.4 平台管理(管)

GPT代建权限申请流程:【前提】GPT跟低代码流程中心、大数据权限管理模块打通。

2.5 数据分析(用)

GPT代做“自助提数”:【前提】GPT跟权限(行列权限和加解密),安全审计能力打通。2、打通元数据,确保GPT生成SQL时,对表、字段的描述跟数仓保持一致,可以直接使用。

2.6 BI看板(用)

GPT生成“图表”:【前提】GTP跟图表生成工具打通。

3. 结论

大数据场景下向数字孪生方向的发展加快了步伐。GPT在数据集成、数据开发、资产管理、平台管理、数据分析、业务应用等环节中的作用,为数字化建设领域带来了一次“重生”的契机,同时也提升了效率,节约了人力投入。

本页网址:https://www.xinzhibang.net/article_detail-5517.html

寻求报道,请 点击这里 微信扫码咨询

关键词

GPT 大数据 数据生命周期 AI SQL 数据开发

分享至微信: 微信扫码阅读

相关工具

相关文章