数据清洗中常用的技巧和代码

新知榜官方账号

2023-09-18 19:40:33

数据清洗中常用的技巧和代码

通常在进行数据分析之前，有一步非常重要的工作要做，就是数据清理，从而保证数据的质量，这也直接关系到数据最终分析和预测结果的准确性。数据清洗不是一件简单的任务，大多数情况下这项工作是十分耗时而乏味的，但它又是十分重要的。如果你经历过数据清洗的过程，你就会明白我的意思。在进行数据清洗时，有一些数据具有相似的模式。也正是从那时起，开始整理并编译了一些数据清洗代码，我认为这些代码也适用于其它的常见场景。由于这些常见的场景涉及到不同类型的数据集，因此本文更加侧重于展示和解释这些代码可以用于完成哪些工作。

删除多列数据

def drop_multiple_col(col_names_list,df):
    '''
    AIM->Drop multiple columns based on their column names
    INPUT->List of column names, df
    OUTPUT->updated df with dropped columns
    ------
    '''
    df.drop(col_names_list,axis=1,inplace=True)
    return df

这种方法可以删除数据集中的多个列。

转换数据类型

def change_dtypes(col_int,col_float,df):
    '''
    AIM->Changing dtypes to save memory
    INPUT->List of column names (int,float), df
    OUTPUT->updated df with smaller memory
    ------
    '''
    df[col_int]=df[col_int].astype('int32')
    df[col_float]=df[col_float].astype('float32')

这种方法可以将整数和浮点数列的数据类型转换为更小的数据类型，以节省内存。

将分类变量转换为数值变量

def convert_cat2num(df):
    # Convert categorical variable to numerical variable
    num_encode={'col_1':{'YES':1,'NO':0},'col_2':{'WON':1,'LOSE':0,'DRAW':0}}
    df.replace(num_encode,inplace=True)

这种方法可以将分类变量转换为数值变量，以便在后续的分析中使用。

检查缺失的数据

def check_missing_data(df):
    # check for any missing data in the df (display in descending order)
    return df.isnull().sum().sort_values(ascending=False)

这种方法可以检查数据集中是否有缺失的数据。

删除列中的字符串

def remove_col_str(df):
    # remove a portion of string in a dataframe column - col_1
    df['col_1'].replace('
','',regex=True,inplace=True)
    # remove all the characters after (including) '.' for column - col_1
    df['col_1'].replace('.*','',regex=True,inplace=True)

这种方法可以删除数据集中某一列中的字符串。

删除列中的空格

def remove_col_white_space(df):
    # remove whitespace at the beginning of string
    df[col]=df[col].str.lstrip()

这种方法可以删除数据集中某一列中字符串开头的空格。

将两列字符串数据拼接起来

def concat_col_str_condition(df):
    # concat 2 columns with strings if the last 3 letters of the first column are 'pil'
    mask=df['col_1'].str.endswith('pil',na=False)
    col_new=df[mask]['col_1']+df[mask]['col_2']
    col_new.replace('pil','',regex=True,inplace=True)

这种方法可以将数据集中满足一定条件的两列字符串数据拼接在一起。

转换时间戳

def convert_str_datetime(df):
    '''
    AIM->Convert datetime(String) to datetime(format we want)
    INPUT->df
    OUTPUT->updated df with new datetime format
    ------
    '''
    df.insert(loc=2,column='timestamp',value=pd.to_datetime(df.transdate,format='%Y-%m-%d%H:%M:%S.%f'))

这种方法可以将数据集中字符串格式的时间戳转换为日期「datetime」格式。

以上是数据清洗中常用的技巧和代码，希望对您有所帮助。

本页网址：https://www.xinzhibang.net/article_detail-12224.html

寻求报道，请

关键词

数据清洗数据分析缺失数据数据类型转换字符串处理时间戳

分享至微信：

相关工具

Writecream AI Content Detector

Writecream推出的AI内容检测工具

Originality.AI

原创度和AI内容检测

Sapling AI Content Detector

Sapling.ai推出的免费在线AI内容检测工具

Winston AI

强大的AI内容检测解决方案

CheckforAI

免费在线检测AI内容

StudyCorgi ChatGPT Detector

StudyCorgi推出的帮助学生检测ChatGPT的工具

未来速度完成数百万美元天使轮融资，旗下产品Xorbits将加速Python生态下大规模数据的处理

未来速度完成数百万美元天使轮融资，旗下产品Xorbits加速Python生态下大规模数据的处理未来速度成立于2022年，旗下产品Xorbits为分布式数据科学计算框架，旨在加速Python生态下大规模数据的处理。Python作为一门容易上手的编程语言，具有较高的开发效率，同时有Pandas、Nump

分类标签未来速度XorbitsPython分布式数据科学计算框架大规模数据处理并行计算

12-06 00:15

数字贸易与AI的碰撞：2023第二届全球数字贸易博览会在杭州开幕

数字贸易与AI的碰撞：2023第二届全球数字贸易博览会在杭州开幕数字经济发展让新时代的贸易不再单一。吃的水果，喝的乳品，“看得见”的商品通过跨境电商漂洋过海，出现在异国的餐桌；玩的游戏，听的音乐，“摸不着”的商品也能借助互联网翻山越岭，影响另一个国度的人。这也是AI的时代。今年以来，ChatGPT横

分类标签数字贸易AI全球数字贸易博览会

11-25 10:22

初识CRM

初识CRMCRM（Customer Relationship Management），即客户关系管理。是指企业通过对客户信息的收集、分析和运用，以提高客户满意度、保持客户忠诚度、增加销售和利润等目的的一种管理方式。CRM的主要功能包括客户信息管理、销售管理、市场营销管理和客户服务管理等。其中客户信息

分类标签 CRM客户关系管理市场

11-24 08:02

阿里版的ChatGPT语言大模型来了

阿里巴巴所有产品未来将接入“通义千问”大模型，进行全面改造。他认为，面向AI时代，所有产品都值得用大模型重新升级。现在，钉钉、天猫精灵等产品已接入通义千问测试，将在评估认证后正式发布新功能。生成式AI又可称为AIGC（ArtificialIntelligenceGeneratedContext，即可

分类标签阿里巴巴通义千问AI功能

11-13 18:10

Clarifai宣布推出端到端的AI审核解决方案

背景将互联网上的色情、毒品、暴力和其它不适当的内容过滤并不是一件容易的事。Facebook在全球的内容审核员从2017年的4500名增长至现在的7500名。而且在今年4月份，谷歌YouTube表示，在去年的10月份到12月份之间，他们已经下架了超过800万个与其政策相违背的视频，其中20%的视频是由

分类标签 Clarifai审核解决方案AI

11-11 16:35

互联网强国的意义及AI在互联网中的应用

互联网强国是指在互联网领域具有强大实力和影响力的国家。互联网强国可以从多个方面来理解：经济发展：互联网强国意味着该国在数字经济领域具有竞争力和创新能力，能够推动经济的快速发展。互联网技术的广泛应用和数字化转型可以促进各行各业的创新和提升效率，推动产业升级和经济结构优化。科技创新：互联网强国需要具备自

分类标签互联网强国经济发展科技创新

11-10 22:29

AI技术的五种新应用

AI技术的五种新应用人工智能作为一项迅速兴起的技术，在各个领域都引起了不小的轰动。不知从何时起，我们的生活、娱乐、生活的方方面面都有了AI的身影。在今年，这5个人工智能全新应用，或许应该被给予更多关注。AI检测COVID-19新冠病毒快速席卷全球，给世界带来了难以估量的损失。有研究人员根据现有的数据

分类标签人工智能COVID-19交通领域电话客服餐饮业

11-04 22:42

智能制造中的AOI瑕疵检测智能化发展

智能制造中的AOI瑕疵检测智能化发展从设备联网、可视化管理等的基础应用，进展到以AI达到生产设备预知维护保养等，智能制造应用现今可说是百花齐放，而产业端的实际需求，更是促进智慧应用成熟发展的动力。但同时，质量与良率仍然是目前国内制造业者最重视的议题。在此需求下，近期智能制造相关应用中最受广大讨论的则

分类标签智能制造AOI瑕疵检测AI技术

11-04 22:39

智能制造市场中最受讨论的瑕疵检测智能化发展

智能制造市场中最受讨论的瑕疵检测智能化发展从设备联网、可视化管理等的基础应用，进展到以AI达到生产设备预知维护保养等，智能制造应用现今可说是百花齐放，而产业端的实际需求，更是促进智慧应用成熟发展的动力。但同时，质量与良率仍然是目前国内制造业者最重视的议题。在此需求下，近期智能制造相关应用中最受广大讨

分类标签智能制造瑕疵检测AOI

11-04 22:39

Buzzfeed引入AI技术的测试栏目quizzes，旨在用新技术赚取更多利润

Buzzfeed引入AI技术的测试栏目quizzes，旨在用新技术赚取更多利润据报道，Buzzfeed发布了引入AI技术的测试栏目quizzes，旨在用新技术赚取更多利润。quizzes栏目有一系列测试问题，比如性格测试、兴趣爱好测试等等。现在quizzes多出一些问题，它引入了AI，比如其中一个与

分类标签 BuzzfeedAI技术quizzes

11-04 22:36

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway