NumPy空值设置完全指南

学习在NumPy数组中正确处理空值的方法与技巧

为什么需要处理空值？

在数据分析与科学计算中，缺失数据（空值）是常见问题。NumPy提供了专门的np.nan来表示缺失数值，正确处理这些空值对于数据清洗、分析和建模至关重要。

NumPy中的空值表示

在NumPy中，空值用np.nan（Not a Number）表示：

import numpy as np

# 创建一个包含空值的数组
arr = np.array([1, 2, np.nan, 4, 5])
print("包含空值的数组:", arr)

关键点: np.nan是IEEE 754浮点数标准中表示"非数字"的特殊值，属于float类型。

创建包含空值的数组

方法1：直接创建

# 创建时直接包含np.nan
data = [10.5, np.nan, 23.7, np.nan, 41.2]
arr = np.array(data)
print(arr)

方法2：初始化空数组后填充

# 创建全为0的数组，然后设置空值
arr = np.zeros(5)
arr[1] = np.nan
arr[3] = np.nan
print(arr)

检测数组中的空值

使用np.isnan()函数检测空值位置：

arr = np.array([5, np.nan, 15, np.nan, 25])

# 检测空值位置
nan_positions = np.isnan(arr)
print("空值位置:", nan_positions)  # 输出: [False  True False  True False]

# 统计空值数量
nan_count = np.sum(nan_positions)
print("空值数量:", nan_count)

空值处理技巧

方法

代码示例

替换空值为0

arr[np.isnan(arr)] = 0

使用列均值填充

col_mean = np.nanmean(arr, axis=0)
arr = np.where(np.isnan(arr), col_mean, arr)

过滤含空值的行

filtered_arr = arr[~np.isnan(arr).any(axis=1)]

实际应用：处理真实数据集中的空值

以下示例展示如何清洗包含空值的数据集：

import numpy as np

# 模拟包含空值的数据集
data = np.array([
    [1.2, 2.3, 3.4],
    [4.5, np.nan, 6.7],
    [np.nan, 8.9, 9.0],
    [2.1, 3.2, np.nan]
])
print("原始数据:\n", data)

# 步骤1：统计每列的空值数量
nan_per_col = np.sum(np.isnan(data), axis=0)
print("\n每列空值数量:", nan_per_col)

# 步骤2：使用列均值填充空值
for i in range(data.shape[1]):
    col = data[:, i]
    col_mean = np.nanmean(col)
    col[np.isnan(col)] = col_mean

print("\n填充后的数据:\n", data)