pandas: powerful Python data analysis toolkit - 0.17.0 - IT文库

语言	格式	评分
英语	.pdf	3
摘要
文档主要介绍了pandas 0.17.0版本的新功能和改进，包括Panel的apply()方法支持跨截面操作、性能提升、对时间序列的支持增强、新功能的添加以及API的变化。文档还详细列出了版本之间的差异和新功能的具体实现方式。
AI总结
### 文档总结 #### 1. pandas 简介 pandas 是一个强大的 Python 数据分析工具包，旨在提供快速、灵活且直观的数据处理功能。它支持“关系”或“标记化”数据的分析，并致力于成为功能最强大、最灵活的开源数据分析工具。 #### 2. 版本更新 - 0.17.0 版本（2015年10月9日） - 主要更新： - 释放全局解释器锁（GIL），提升部分 Cython 操作性能。 - 绘图方法作为 `.plot` 属性提供。 - 重新设计排序 API，解决长期存在的不一致问题。 - 支持 `datetime64[ns]` 时区作为一等化数据类型。 - 默认情况下，`to_datetime` 在遇到无法解析的格式时抛出异常。 - `HDFStore` 默认启用 `dropna=False`，确保存储所有行，即使包含全 `NaN`。 - 新增 `Series.dt.strftime` 和 `Series.dt.total_seconds` 方法。 - `Period` 和 `PeriodIndex` 支持倍数频率（如 `3D` 表示 3 天）。 - 开发版本的版本字符串符合 PEP 440 标准。 - 性能改进： - 优化 `read_csv` 和 `read_table` 的解析性能，减少内存使用并提升速度。 - API 变化： - 移除部分过时的 API 和特殊用例（如 DataFrame 和 TimeSeries 的广播行为）。 - 0.15.0 版本（2014年10月18日） - 主要更新： - 移除对 numpy < 1.7.0 的支持。 - 引入 `Categorical` 类作为一等化数据类型。 - 新增 `Timedelta` 和 `TimedeltaIndex`。 - 默认显示 `df.info()` 的内存使用情况。 - 新增 `.dt` 属性访问时序数据。 - 重构 `Index` 类，不再继承自 `ndarray`。 - 性能改进： - 优化 `read_csv` 的解析性能，支持更多格式（如带注释、无尾随逗号的 CSV 文件）。 - 0.10.0 版本（2012年12月17日） - 主要更新： - 重写 `read_csv` 和 `read_table` 的解析引擎，显著提升性能（减少内存使用，速度提升 40% 或更多）。 - 支持 Unicode 处理、列过滤、数据类型指定和多种 CSV 选项。 - 新增 `read_fwf` 和 `scatter_matrix` 等功能。 - 改进统计方法（如 `mean`, `std`），忽略非数值数据。 - API 变化： - 移除部分过时的 API 和特殊用例（如 DataFrame 和 TimeSeries 的广播行为）。 #### 3. 其他重要信息 - 文件解析改进： - 支持更多格式（如带注释、无尾随逗号的 CSV 文件）。 - 提升对特殊字符的解析性能。 - 支持 ISO 8601 格式的日期解析。 - 绘图与可视化： - 新增 `plot` 方法的更多选项（如堆叠柱状图）。 - 支持自定义线终止符和日期格式。 - 性能优化： - 提升 `read_csv` 和 `read_table` 的解析速度和内存效率。 - 优化分组操作和统计方法的性能。 - 实验性功能： - 引入 `Panel4D` 和自定义多维容器。 #### 4. 贡献者 - 多个版本的更新得到了社区的广泛贡献，包括 Aaron Schumacher、Adam Greenhall、Benedikt Sauer 等多位开发者的支持。 #### 5. 总结 pandas 作为 Python 数据分析的核心工具包，持续改进性能、扩展功能，并致力于提供更强大、更灵活的数据处理能力。从版本更新到性能优化，pandas 在数据分析领域保持领先地位。

来源	pandas.pydata.org

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 1780 页请下载阅读 -

文档评分

helloworld

文档

1176

文章

0

码力

320

个性签名

暂无个性签名