pandas: powerful Python data analysis toolkit - 0.15 - IT文库

语言	格式	评分
英语	.pdf	3
摘要
pandas是一个强大的Python数据分析工具，适合处理各种类型的数据，包括表格数据、时间序列数据和矩阵数据。它提供了丰富的数据处理功能，如数据清洗、分析、建模和结果展示。pandas的主要数据结构是Series（一维）和DataFrame（二维），适用于金融、统计和社会科学等领域的数据处理。文档介绍了pandas 0.15.2版本的新功能，包括对Categorical类型的集成、新增Timedelta类型、性能优化以及API变化。pandas依赖于NumPy，并与科学计算生态系统中的其他库集成。
AI总结
### 总结 pandas 0.15 版本简介 pandas 是一个强大的 Python 数据分析工具包，专为数据科学家设计，适用于数据处理、分析、建模以及结果展示。其核心功能包括： 1. 核心功能： - 数据处理：支持多种数据格式，如表格数据、时间序列数据、矩阵数据等。 - 数据清洗与转换：支持缺失值处理、数据对齐、重塑和透视表等功能。 - 高效计算：提供分组操作、聚合、统计分析等工具。 - 时间序列分析：支持时间频率转换、移动窗口统计、线性回归、日期移位等功能。 2. 新功能与改进： - 新增功能： - 引入 `Timedelta` 类型及其索引 `TimedeltaIndex`。 - 提供 `DataFrame.pivot` 的扩展功能，支持多列转为层次化列。 - 支持从结构化数组或记录数组创建 `DataFrame`。 - 性能优化： - 低级别算法在 Cython 中优化，提升计算速度。 - 数据框操作（如分组、索引）性能显著提升。 - API 改动： - `DataMatrix` 已被移除，`WidePanel` 重命名为 `Panel`。 - 移除对旧版本 `LongPanel` 的支持。 - `DataFrame` 的 pickle 格式更新，需使用 `PyTables` 存储长期数据。 3. 重要特性： - 数据处理： - 支持布尔索引和掩码操作。 - 改进 `read_csv` 和 `read_table` 的灵活性，支持自定义缺失值和跳过指定行。 - 时间序列： - 支持日期范围生成、频率转换、移动窗口统计和回归。 - 输入输出： - 支持 HDF5 格式存储和加载数据，提供高效的 `HDFStore`。 - 索引与选择： - 支持多级索引和高级索引操作。 - 提供 `.loc`、`.iloc` 等优化的数据访问方法。 4. 内部重构： - `Index` 类不再继承自 `ndarray`，改为继承 `PandasObject`，便于子类化和扩展。 - 数据框的内部实现更加模块化，Cython 代码统一迁移到顶层 `pandas/src` 目录。 5. 依赖与兼容性： - 依赖 `NumPy`，建议熟悉 `NumPy` 后再使用 pandas。 - 与 `statsmodels` 紧密集成，成为 Python 统计计算生态的重要部分。 6. 示例功能： - 数据展示：`df.describe()` 提供数据摘要统计。 - 转置与排序：支持按轴或值排序。 - 布尔索引：支持使用布尔序列进行数据选择。总结 pandas 0.15 版本在性能、功能和易用性上均有显著提升，特别在时间序列分析、数据处理和统计计算方面表现突出，是数据科学领域的重要工具。

来源	pandas.pydata.org

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 1572 页请下载阅读 -

文档评分

helloworld

文档

1176

文章

0

码力

320

个性签名

暂无个性签名