Python vs SQL 比较：数据管道的选择

新知榜官方账号

2023-09-18 19:00:24

Python vs SQL 比较：数据管道的选择

作为一名Web开发人员，我第一次与数据库和SQL产生交集是使用对象关系映射（ORM）。我使用的是Django查询集API，这个界面用户体验很好。之后，我转向数据工程方向，更多地利用数据集来构建AI。我的职责是从用户应用程序中获取数据，并将其转换为数据科学家可利用的内容，这一过程通常称为ETL(extract,transformandload)。

随着产业发展，生产系统中的数据非常混乱，需要进行大量转换才能用于构建AI。有些JSON列每行模式都不相同，有些列包含混合数据类型，有些行有错误值。此外，还需要计算「用户成为访问者的时间」以及「他们在两次访问间的等待时间」等特征。当我着手清理、聚合和管理数据特征时，我想确定哪种语言最适合该任务。

在之前的工作中我每天都使用Python，我知道它可以完成工作。但是，这次经历使我了解到，Python可以完成一项任务并不意味着这个任务就应该使用Python来做。

SQL转换不仅速度更快，而且代码也更易读，更易于维护。在这里，我使用lag和first_value函数来查找用户历史记录中的特定记录（即分区）。然后使用age函数来确定两次访问间的时间差。

更有趣的是，当这些转换脚本应用于6.5GB的数据集时，Python完全失败。在3次尝试中，Python崩溃了2次，第三次我的计算机完全崩溃......而SQL只耗时226秒。

这些发现完全改变了我做ETL的方法。我现在的工作模式是「不要将数据移动到代码中，而是将代码移动到数据中」。Python将数据移动到代码中，而SQL执行后者。更重要的是，我知道我只是触及了SQL和postgres的皮毛。我期待能发掘出更多出色的功能，使用分析库实现加速。

原文链接：https://towardsdatascience.com/python-vs-sql-comparison-for-data-pipelines-8ca727b34032

本页网址：https://www.xinzhibang.net/article_detail-12206.html

寻求报道，请

关键词

分享至微信：

相关工具

GitHub AI编程工具

Mutable AI

人工智能加速软件开发

AI Code Reviewer

AI代码检查

Imgcook

阿里推出的免费设计稿智能生成前端代码

AirOps

AI SQL语句生成和修改

CodeArts Snap

华为云推出的智能编程助手

国产智能编码插件对比测试

引言今年百度、华为、阿里云都分别发布了对标GithubCopilot的智能编码插件，谁能成为平替GithubCopilot的国产工具呢？有句话说的好，“始于颜值，陷于才华”，所以今天主要为大家介绍一下各自插件的主要功能以及在IntelliJIDEA上的UI颜值，至于每个插件的“才华”，将在后续的文章

分类标签国产插件智能编码GithubCopilot

12-03 08:51

产品经理学SQL（二）一天学会用SQL解决业务查询问题（上篇）

产品经理学SQL（二）一天学会用SQL解决业务查询问题（上篇）本文为产品经理学习SQL的第二篇，讲述如何用SQL解决业务查询问题，包含上篇的内容。SQL是一种非常重要的数据处理语言，产品经理也需要掌握基本的SQL语法和使用方法。通过学习SQL，可以更好地理解数据，进而优化产品和业务，提高工作效率。本

分类标签产品经理SQL业务查询

10-28 08:00

IEEESpectrum发布2023年度编程语言榜单：Python连续八年名列前茅

IEEESpectrum发布2023年度编程语言榜单：Python连续八年名列前茅近日，IEEESpectrum重磅发布了2023年度编程语言榜单，揭晓了开发者使用编程语言的最新现状。该榜单结合了多个受欢迎度指标，如Google、StackOverflow、GitHub、IEEEXploreDigi

分类标签 IEEESpectrum编程语言榜单Python

10-14 03:08

MongoDB在数据处理中的应用

MongoDB在数据处理中的应用MongoDB是一种强大的NoSQL数据库，它在当今数据处理领域扮演着至关重要的角色。相比传统的关系型数据库，MongoDB引领着数据管理的新潮流，具有一些显著的优势。首先，MongoDB采用了灵活的文档存储格式，无需预定义表结构，使得数据存储和查询变得极为容易。其次

分类标签 MongoDBNoSQL数据管理

10-14 03:07

SQLFlow：使用SQL完成AI工作流构建的编译系统

什么是SQLFlow？ SQLFlow是一个使用SQL完成AI工作流构建的编译系统，可以连接多种数据库系统和机器学习引擎，完成从数据的抽取、预处理、模型训练、评估、预测、模型解释、运筹规划等工作流的构建。为什么要使用SQLFlow？使用SQL作为描述和构建AI任务的语言，可以降低构建AI应用的门

分类标签 SQLFlowAI工作流编译系统模型训练模型解释

10-01 02:36

MySQL从入门到精通实战课程推荐

课程介绍今天，CSDN要向你推荐一门适合所有程序员学习的课程：MySQL从入门到精通实战。根据《2019-2020年中国开发者调查报告》显示，超83%的开发者都在使用MySQL数据库。如果你常逛招聘网站，不难发现：几乎所有的岗位都要求会使用SQL。要是不会的话，即使其他编程语言再强，可能也找不到工作

分类标签 MySQL程序员课程

09-25 04:08

CodeArts智能代码补全-云社区-华为云

摘要：代码补全可以有效的提升开发效率、减少拼写错误和输入代码量。CodeArts依赖于codearts.smartassist-java-ls插件实现代码补全功能。本文分享自华为云社区《CodeArts智能代码补全-云社区-华为云》，作者：HuaweiCloud开发工具。代码补全类型主要有：关键字基

分类标签智能代码补全CodeArts华为云

09-23 09:38

AIXcoder：一款中规中矩的编码辅助工具

人工智能编码辅助工具的发展近几年，人工智能迅速发展，在各行各业都有所应用，特别是近两年，面向开发者的AI开发工具也是层出不穷，从这些工具中，我们看到了AI能为开发者带来的无限可能性。本系列文章主要介绍国外的Kite、Codota、TabNine、GitHubCopilot、微软IntelliCod

分类标签人工智能编码辅助工具AIXcoder

09-20 03:14

用DBeaver作为开源的数据库工具

缘起最近Ai不是大火么，想着自己也弄一些开源的框架来捣腾一下。手上用着Mac，但Mac都没有显卡的，对于学习Ai训练模型不方便，所以最近新购入了一台4090的拯救者，打算用来好好学习一下Ai（呸，以上都是理由，其实都是忽悠老婆的，真实情况是为了打游戏哈哈）。用了几天后，发现还挺香，速度比我的Mac笔

分类标签 DBeaver开源数据库工具

09-18 19:26

实用的AI数据分析工具推荐

实用的AI数据分析工具推荐工欲善其事，必先利其器。说起来道理大家都懂，殊不知一款好的数据分析工具可以让你事半功倍，瞬间提高工作效率。今天就来和大家分享几个AI数据分析工具，可以用来生成Excel公式、解释公式、编写SQL代码，以及上传数据表进行智能分析等功能。第一个工具是RathbyKanarie，

分类标签 AI数据分析工具RathbyKanarieSQLkiller-AISlopedAmnetDigital工具AI

09-18 19:24

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway