搜索

pdf文档 pandas: powerful Python data analysis toolkit - 0.17.0

10.76 MB 1787 页 0 下载 119 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了pandas 0.17.0版本的新功能和改进,包括Panel的apply()方法支持跨截面操作、性能提升、对时间序列的支持增强、新功能的添加以及API的变化。文档还详细列出了版本之间的差异和新功能的具体实现方式。
AI总结
### 文档总结 #### 1. **pandas 简介** pandas 是一个强大的 Python 数据分析工具包,旨在提供快速、灵活且直观的数据处理功能。它支持“关系”或“标记化”数据的分析,并致力于成为功能最强大、最灵活的开源数据分析工具。 #### 2. **版本更新** - **0.17.0 版本(2015年10月9日)** - **主要更新**: - 释放全局解释器锁(GIL),提升部分 Cython 操作性能。 - 绘图方法作为 `.plot` 属性提供。 - 重新设计排序 API,解决长期存在的不一致问题。 - 支持 `datetime64[ns]` 时区作为一等化数据类型。 - 默认情况下,`to_datetime` 在遇到无法解析的格式时抛出异常。 - `HDFStore` 默认启用 `dropna=False`,确保存储所有行,即使包含全 `NaN`。 - 新增 `Series.dt.strftime` 和 `Series.dt.total_seconds` 方法。 - `Period` 和 `PeriodIndex` 支持倍数频率(如 `3D` 表示 3 天)。 - 开发版本的版本字符串符合 PEP 440 标准。 - **性能改进**: - 优化 `read_csv` 和 `read_table` 的解析性能,减少内存使用并提升速度。 - **API 变化**: - 移除部分过时的 API 和特殊用例(如 DataFrame 和 TimeSeries 的广播行为)。 - **0.15.0 版本(2014年10月18日)** - **主要更新**: - 移除对 numpy < 1.7.0 的支持。 - 引入 `Categorical` 类作为一等化数据类型。 - 新增 `Timedelta` 和 `TimedeltaIndex`。 - 默认显示 `df.info()` 的内存使用情况。 - 新增 `.dt` 属性访问时序数据。 - 重构 `Index` 类,不再继承自 `ndarray`。 - **性能改进**: - 优化 `read_csv` 的解析性能,支持更多格式(如带注释、无尾随逗号的 CSV 文件)。 - **0.10.0 版本(2012年12月17日)** - **主要更新**: - 重写 `read_csv` 和 `read_table` 的解析引擎,显著提升性能(减少内存使用,速度提升 40% 或更多)。 - 支持 Unicode 处理、列过滤、数据类型指定和多种 CSV 选项。 - 新增 `read_fwf` 和 `scatter_matrix` 等功能。 - 改进统计方法(如 `mean`, `std`),忽略非数值数据。 - **API 变化**: - 移除部分过时的 API 和特殊用例(如 DataFrame 和 TimeSeries 的广播行为)。 #### 3. **其他重要信息** - **文件解析改进**: - 支持更多格式(如带注释、无尾随逗号的 CSV 文件)。 - 提升对特殊字符的解析性能。 - 支持 ISO 8601 格式的日期解析。 - **绘图与可视化**: - 新增 `plot` 方法的更多选项(如堆叠柱状图)。 - 支持自定义线终止符和日期格式。 - **性能优化**: - 提升 `read_csv` 和 `read_table` 的解析速度和内存效率。 - 优化分组操作和统计方法的性能。 - **实验性功能**: - 引入 `Panel4D` 和自定义多维容器。 #### 4. **贡献者** - 多个版本的更新得到了社区的广泛贡献,包括 Aaron Schumacher、Adam Greenhall、Benedikt Sauer 等多位开发者的支持。 #### 5. **总结** pandas 作为 Python 数据分析的核心工具包,持续改进性能、扩展功能,并致力于提供更强大、更灵活的数据处理能力。从版本更新到性能优化,pandas 在数据分析领域保持领先地位。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 1780 页请下载阅读 -
文档评分
请文明评论,理性发言.