pandas: powerful Python data analysis toolkit - 0.25.0 - IT文库

语言	格式	评分
英语	.pdf	3
摘要
文档介绍了pandas 0.25.0版本的功能和更新内容，包括新增的分组聚合功能、数据结构、数据操作方法以及安装说明。pandas是一个强大的Python数据分析工具，支持多种数据类型，提供高效的数据处理和分析功能，适用于金融、统计和社会科学等多个领域。
AI总结
### pandas 0.25.0 版本更新与功能概述 #### 1. 版本信息 - 发布日期: 2019年7月18日 - 最低Python版本要求: 从0.25.x系列开始，pandas仅支持Python 3.5.3及以上版本，未来版本将升级至Python 3.6。 - 重要提示: - Panel功能已完全移除，建议使用xarray处理N维标签数据。 - `read_pickle()` 和 `read_msgpack()` 的向后兼容性仅保证到pandas 0.20.3版本。 - 从2020年1月1日起，pandas将不再支持Python 2.7。 --- #### 2. 新功能亮点 - 群组聚合（Named Aggregation）: 新增了“命名聚合”功能，允许在对特定列应用多个聚合函数时，自定义输出列的名称（GH18366, GH26512）。示例： ```python animals.groupby('kind').agg({'height': 'mean', 'weight': 'median'}) ``` --- #### 3. 核心功能与数据结构 - 数据结构: - Series: 1维带标签的同构数组。 - DataFrame: 2维带标签的、大小可变的表格结构，支持异构数据类型。 - DataFrame是pandas的核心，适用于表格数据、时间序列数据、矩阵数据等多种场景。 - 关键功能: - 缺失值处理: 使用`np.nan`表示缺失值，默认排除缺失值进行计算。支持`dropna()`和`fillna()`方法。 - 数据对齐: 自动对齐索引，简化数据操作。 - 分组与聚合: 提供灵活的`split-apply-combine`操作，支持多种聚合和转换功能。 - 重塑与透视: 支持灵活的数据重塑和透视操作。 - 高效IO工具: 支持CSV、Excel、数据库等多种数据格式的读写，以及快速的HDF5格式存储。 - 时间序列功能: 包括时间范围生成、频率转换、移动窗口统计等。 --- #### 4. 安装与依赖 - 推荐安装方式: 使用Anaconda分布，包含pandas、NumPy、SciPy等科学计算库。 - 依赖关系: pandas基于NumPy构建，是统计计算生态中的重要组件（statsmodels的依赖项）。 --- #### 5. 教程与资源 - 入门指南: - 《10分钟入门pandas》：适合快速上手。 - 《pandas Cookbook》：提供真实数据集的示例代码。 - 进阶学习: - Modern Pandas教程：涵盖方法链、索引、性能优化等高级主题。 - pandas官方文档：详细说明功能和用法。 --- #### 6. 其他重要信息 - 性能: - pandas在底层使用Cython优化关键算法，性能高效。 - 通用性通常会牺牲性能，针对特定场景可开发更高效的工具。 - 社区支持: - 提供活跃的开发者团队和丰富的社区资源，包括GitHub、邮件列表和问答支持。 --- 总结：pandas 0.25.0 版本在功能增强、性能优化和向下兼容性方面均有显著提升，是数据科学领域中强大的数据分析工具。

来源	pandas.pydata.org

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 2820 页请下载阅读 -

文档评分

helloworld

文档

1176

文章

0

码力

320

个性签名

暂无个性签名