当前位置:首页 > Python > 正文

Pandas DataFrame数据查看方法大全 - Python数据分析教程

Pandas DataFrame数据查看方法大全

在数据分析中,查看DataFrame是理解数据集的第一步。Pandas提供了多种查看DataFrame的方法,本教程将详细介绍这些核心方法。

1. 查看头部/尾部数据

head()tail()方法用于快速查看数据的开头和结尾:

import pandas as pd

# 创建示例DataFrame
data = {'姓名': ['张三', '李四', '王五', '赵六', '钱七'],
        '年龄': [25, 32, 28, 35, 29],
        '城市': ['北京', '上海', '广州', '深圳', '杭州']}
df = pd.DataFrame(data)

# 查看前3行
print(df.head(3))

# 查看后2行
print(df.tail(2))

2. 查看数据结构

info()方法显示数据概览:

df.info()

输出显示:列名、非空值数量、数据类型和内存使用情况。

3. 统计摘要

describe()生成数值列的统计摘要:

print(df.describe())

包含计数、均值、标准差、最小值、四分位数和最大值。

4. 查看列信息

使用columns属性查看所有列名:

print(df.columns)

5. 形状查看

shape属性返回行列数量:

print(f"数据集形状: {df.shape}")  # 输出 (5, 3)

6. 数据类型查看

dtypes属性查看每列数据类型:

print(df.dtypes)

7. 索引查看

index属性查看行索引:

print(df.index)

8. 值查看

values属性以NumPy数组形式查看数据:

print(df.values)

9. 抽样查看

sample()随机查看指定行数:

print(df.sample(2))  # 随机查看2行

10. 完整数据查看

设置显示选项查看完整数据:

pd.set_option('display.max_rows', None)  # 显示所有行
pd.set_option('display.max_columns', None)  # 显示所有列
print(df)

最佳实践建议:

  • 大型数据集优先使用head()/tail()避免内存溢出
  • 数据分析前先用info()和describe()理解数据结构
  • 使用sample()检查数据分布情况
  • 处理前用df.shape确认数据量级

掌握这些DataFrame查看方法,能够帮助您快速理解数据集特征,为后续数据清洗和分析打下坚实基础。

发表评论