在实际应用中，数据集中经常会存在缺失值，也就是某些数据项的值并未填充或者填充不完整。
缺失值的存在可能会对后续的数据分析和建模产生影响，因此需要进行处理。

pandas提供了多种方法来处理缺失值，例如删除缺失值、填充缺失值等。
删除缺失值可能会导致数据量减少，填充缺失值则能够尽量保留原始数据集的完整性，从而提高数据分析和建模的准确性和可靠性。

当数据集中存在缺失值时，我们通常需要进行以下操作：

1. 缺失值统计

首先我们随机创建一个包含缺失值的测试数据集，这里用到之前介绍过的创建测试数据的技巧。

import pandas as pd

def get_random_missing_data():

    df = pd.util.testing.makeMissingDataframe()

    return df[df.isna().any(axis=1)]

df = get_random_missing_data()

df

这里我封装了一个简单的函数get_random_missing_data，通过这个函数，可以创建一个每行至少有一个缺失值的数据集。
注意：这是随机创建的数据集，所以每次运行的结果会不一样。

统计缺失值很简单，首先通过isna函数找出所有缺失的值，然后可以使用sum或者mean来统计缺失的数量和比例。

df.isna().sum()

sum函数返回的是每一列缺失值的数量。

df.isna().mean()

mean函数返回的值可以看做每一列缺失值占的比例。

2. 删除缺失值

处理缺失值时，有些场景为了保证数据的完整性，只能删掉有缺失的数据。
删除缺失值有2个重要的参数：how 和 axis。

how有2个可选值：

axis也有2个可选值：

how="any"，axis=0的情况：每行数据中只要有一个缺失值就删除该行。

df = pd.DataFrame(

    {

        "A": [1, 2, 3, np.nan],

        "B": [1, np.nan, 3, 4],

        "C": [1, 2, np.nan, 4],

        "D": [1, 2, 3, 4],

    }

)

df.dropna(how="any", axis=0)

how="all"，axis=0的情况：每行数据中，全部值都缺失的行才删除。

df = pd.DataFrame(

    {

        "A": [1, np.nan, 3, np.nan],

        "B": [1, np.nan, 3, 4],

        "C": [1, np.nan, np.nan, 4],

        "D": [1, np.nan, 3, 4],

    }

)

df.dropna(how="all", axis=0)

how="any"，axis=1的情况：每列数据中只要有一个缺失值就删除该列。

df = pd.DataFrame(

    {

        "A": [1, 2, 3, np.nan],

        "B": [1, np.nan, 3, 4],

        "C": [1, 2, np.nan, 4],

        "D": [1, 2, 3, 4],

    }

)

df.dropna(how="any", axis=1)

how="all"，axis=1的情况：每列数据中,全部值都缺失的列才删除。

df = pd.DataFrame(

    {

        "A": [np.nan, np.nan, np.nan, np.nan],

        "B": [1, np.nan, 3, 4],

        "C": [1, 2, np.nan, 4],

        "D": [1, np.nan, 3, 4],

    }

)

df.dropna(how="all", axis=1)

3. 填充缺失值

填充缺失值一般使用fillna函数指定填充什么样的值。
比如：

df = pd.DataFrame(

    {

        "A": [1, 2, 3, np.nan],

        "B": [1, np.nan, 3, 4],

        "C": [1, 2, np.nan, 4],

        "D": [1, 2, 3, 4],

    }

)

df.fillna(-1)

这里是用 -1 来填充的，根据实际情况可以使用任意合适的值来填充。

除了 fillna 函数之外，还有一个interpolate函数，能够更加合理的填充缺失值。

df = pd.DataFrame(

    {

        "A": [1, 3, 4, np.nan],

        "B": [2, np.nan, 2, 4],

        "C": [3, 3, np.nan, 3],

        "D": [4, 1, np.nan, 4],

    }

)

df.interpolate()

每个缺失值都是它上下两行的值的平均值。

如果只有上面行的值，那就直接用上面行的值。
这里有个注意的地方：如果是第一行有缺失的话，那么是无法填充的。
比如：

df = pd.DataFrame(

    {

        "A": [np.nan, 3, np.nan, np.nan],

        "B": [2, np.nan, 2, 4],

        "C": [3, 3, np.nan, 3],

        "D": [4, 1, np.nan, 4],

    }

)

df.interpolate()

第一行的缺失值没有上一行可以参照，还是维持原来缺失的状态。
所以使用 interpolate 进行填充时，注意第一行的缺失值状态，可以用 fillna 先处理第一行。

【pandas小技巧】--缺失值的列

1. 缺失值统计

2. 删除缺失值

3. 填充缺失值

【pandas小技巧】--缺失值的列的相关教程结束。

相关推荐

使用anaconda如何安装pandas

【pandas小技巧】--数据转置

数据分析缺失值处理(Missing Values)——删除法、填充法、插值法

Ubuntu16.04 下 python 3.6 安装以及各版本python切换（同时解决各种依赖缺失）

50分钟学会Laravel 50个小技巧

最强 Android Studio 使用小技巧和快捷键

Android开发学习之路-Android Studio开发小技巧

【理论积累】Python中的Pandas库【一】