Pandas数据结构：Series与DataFrame-阿里云开发者社区

Pandas数据结构：Series与DataFrame

2024-12-17 732

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

可观测可视化 Grafana 版，10个用户账号 1个月

应用实时监控服务-应用监控，每月50GB免费额度

函数计算FC，每月15万CU 3个月

简介： 本文介绍了 Python 的 Pandas 库中两种主要数据结构 `Series` 和 ``DataFrame`，从基础概念入手，详细讲解了它们的创建、常见问题及解决方案，包括数据缺失处理、数据类型转换、重复数据删除、数据筛选、排序、聚合和合并等操作。同时，还提供了常见报错及解决方法，帮助读者更好地理解和使用 Pandas 进行数据分析。

引言

在数据分析领域，Python 的 Pandas 库因其强大的数据操作功能而广受欢迎。Pandas 提供了两种主要的数据结构：Series 和 DataFrame。本文将从基础概念出发，逐步深入探讨这两种数据结构的使用方法、常见问题及解决方案。

1. 基础概念

1.1 Series

Series 是一维数组，可以存储任何数据类型（整数、字符串、浮点数、Python 对象等）。Series 的索引默认是从 0 开始的整数索引，也可以自定义索引。

import pandas as pd

# 创建一个简单的 Series
data = [10, 20, 30, 40]
s = pd.Series(data)
print(s)

输出：

0    10
1    20
2    30
3    40
dtype: int64

1.2 DataFrame

DataFrame 是二维表格型数据结构，可以看作是由多个 Series 组成的。每个列可以有不同的数据类型。DataFrame 的索引可以是自定义的，也可以是默认的整数索引。

# 创建一个简单的 DataFrame
data = {
   
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

输出：

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

2. 常见问题及解决方案

2.1 数据缺失

问题描述

在实际数据中，经常会遇到缺失值（NaN）。处理缺失值是数据分析中的一个重要步骤。

解决方案

删除缺失值：使用 dropna() 方法删除包含缺失值的行或列。
填充缺失值：使用 fillna() 方法填充缺失值。

# 删除缺失值
df.dropna(inplace=True)

# 填充缺失值
df.fillna(value=0, inplace=True)

2.2 数据类型转换

问题描述

有时需要将某一列的数据类型从一种类型转换为另一种类型，例如从字符串转换为整数。

解决方案

使用 astype() 方法进行数据类型转换。

# 将 'Age' 列从字符串转换为整数
df['Age'] = df['Age'].astype(int)

2.3 重复数据

问题描述

数据集中可能存在重复的记录，这会影响分析结果的准确性。

解决方案

使用 drop_duplicates() 方法删除重复的行。

# 删除重复的行
df.drop_duplicates(inplace=True)

2.4 数据筛选

问题描述

在分析数据时，经常需要根据某些条件筛选数据。

解决方案

使用布尔索引进行数据筛选。

# 筛选出年龄大于 30 的记录
filtered_df = df[df['Age'] > 30]
print(filtered_df)

2.5 数据排序

问题描述

对数据进行排序可以帮助我们更好地理解数据的分布情况。

解决方案

使用 sort_values() 方法对数据进行排序。

# 按 'Age' 列升序排序
sorted_df = df.sort_values(by='Age')
print(sorted_df)

2.6 数据聚合

问题描述

在数据分析中，经常需要对数据进行聚合操作，例如计算平均值、求和等。

解决方案

使用 groupby() 方法进行数据聚合。

# 按 'City' 列分组，并计算每组的平均年龄
grouped_df = df.groupby('City')['Age'].mean()
print(grouped_df)

2.7 数据合并

问题描述

在实际应用中，数据往往来自不同的源，需要将这些数据合并在一起进行分析。

解决方案

使用 merge() 方法进行数据合并。

# 创建两个 DataFrame
df1 = pd.DataFrame({
   
    'Name': ['Alice', 'Bob'],
    'Age': [25, 30]
})

df2 = pd.DataFrame({
   
    'Name': ['Alice', 'Bob'],
    'City': ['New York', 'Los Angeles']
})

# 合并两个 DataFrame
merged_df = pd.merge(df1, df2, on='Name')
print(merged_df)

3. 常见报错及解决方法

3.1 KeyError

报错描述

当尝试访问不存在的列时，会引发 KeyError。

解决方法

确保列名正确无误。

# 错误示例
df['NonExistentColumn']

# 正确示例
df['Age']

3.2 ValueError

报错描述

当数据类型不匹配时，会引发 ValueError。

解决方法

检查数据类型是否一致，必要时进行数据类型转换。

# 错误示例
df['Age'] = df['Age'] + 'years'

# 正确示例
df['Age'] = df['Age'].astype(str) + ' years'

3.3 SettingWithCopyWarning

报错描述

当对一个切片进行赋值操作时，可能会引发 SettingWithCopyWarning。

解决方法

使用 .loc 或 .iloc 进行赋值操作。

# 错误示例
subset = df[df['Age'] > 30]
subset['City'] = 'Unknown'

# 正确示例
df.loc[df['Age'] > 30, 'City'] = 'Unknown'

4. 总结

本文介绍了 Pandas 中的两种主要数据结构 Series 和 DataFrame，并通过具体代码案例详细讲解了常见的问题及其解决方案。希望本文能帮助读者更好地理解和使用 Pandas 进行数据分析。

Pandas数据结构：Series与DataFrame

引言

1. 基础概念

1.1 Series

1.2 DataFrame

2. 常见问题及解决方案

2.1 数据缺失

问题描述

解决方案

2.2 数据类型转换

问题描述

解决方案

2.3 重复数据

问题描述

解决方案

2.4 数据筛选

问题描述

解决方案

2.5 数据排序

问题描述

解决方案

2.6 数据聚合

问题描述

解决方案

2.7 数据合并

问题描述

解决方案

3. 常见报错及解决方法

3.1 KeyError

报错描述

解决方法

3.2 ValueError

报错描述

解决方法

3.3 SettingWithCopyWarning

报错描述

解决方法

4. 总结

云原生

热门文章

最新文章

相关课程

相关电子书