pandas: powerful Python data analysis toolkit - 0.19.0
12.03 MB
1937 页
0 下载
101 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
The document introduces pandas, a powerful Python data analysis toolkit, with a focus on version 0.19.0. It highlights new features such as merge_asof for time-series joining, time-aware rolling functions, and improved support for Categorical data. The document also emphasizes pandas' integration with NumPy and its capabilities in handling labeled data, missing values, time series analysis, and data manipulation. It provides an overview of pandas' data structures, functionality, and its role in the broader data analysis ecosystem. | ||
| AI总结 | ||
### 文档总结
#### 1. **文档概述**
- **pandas** 是一个强大的 Python 数据分析工具包,旨在提供快速、灵活且直观的数据处理功能。
- pandas 的主要数据结构是 **Series(1维)** 和 **DataFrame(2维)**,适用于多种数据类型,包括表格数据、时间序列数据和矩阵数据。
- pandas 建立在 NumPy 之上,并与科学计算生态系统(如 matplotlib、statsmodels 等)无缝集成。
---
#### 2. **版本更新(v0.19.0,2016年10月2日)**
- **新功能**:
- `merge_asof()`:支持按时间序列的“asof”风格合并数据。
- `.rolling()`:新增时间序列感知功能。
- `read_csv()`:改进对重复列名的支持,新增直接解析类别数据的功能。
- 新增 `union_categorical()` 函数,用于合并类别数据。
- `PeriodIndex` 现在支持独立的 `period` 数据类型。
- 稀疏数据结构对整数和布尔数据类型的兼容性增强。
- `.describe()` 方法的改进。
- 新增 pandas 开发 API,提供一些实用函数。
- **API 变化**:
- `Series.tolist()` 现在返回 Python 类型。
- 比较操作中不再忽略索引。
- `.to_datetime()` 方法的参数和行为调整。
- `PeriodIndex` 的行为更一致。
- 移除部分之前弃用的功能,例如 `Panel4D` 和 `PanelND`。
- **性能改进**:
- 优化了时间序列操作(如移动窗口统计)的性能。
- 提升了数据读取和处理的速度。
- **弃用与移除**:
- 移除了 `pandas.io.data`、`pandas.io.wb` 和 `pandas.tools.rplot` 等模块。
- 建议使用 xarray 处理多维数据。
- **兼容性**:
- 不再支持 Python 3.2。
- 支持 Python 3.5 和 matplotlib 1.5.0。
---
#### 3. **核心功能**
- **数据处理**:
- 处理缺失值(NaN)。
- 支持数据对齐、索引操作和分组聚合。
- 提供灵活的数据重塑、合并和透视功能。
- **时间序列**:
- 时间范围生成、频率转换、移动窗口统计和日期偏移操作。
- **数据输入/输出**:
- 支持 CSV、Excel、数据库和 HDF5 格式。
- 新增对 SAS xport 文件的支持。
- **性能优化**:
- 通过 Cython 优化底层算法。
- 提供高效的内存管理和数据操作。
---
#### 4. **用户指南**
- **学习资源**:
- 提供多个入门教程,涵盖数据导入、导出、清洗、分析和可视化。
- 适合数据科学家在数据处理、建模和结果展示等场景中使用。
- **社区支持**:
- 通过 GitHub 和 Stack Overflow 提供问题报告和讨论。
- 开发者可以通过邮件列表和文档贡献代码或内容。
---
#### 5. **开发团队与许可**
- pandas 由 PyData 开发团队维护,是一个开源项目。
- 开发始于 2008 年,2009 年开源,并由 Lambda Foundry 提供支持和商业服务。
---
总结:pandas 0.19.0 是一个重要的版本更新,新增了多项功能和性能优化,同时修复了大量问题。它为数据科学家提供了强大的数据处理和分析能力,适用于从数据清洗到可视化的全流程。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
1930 页请下载阅读 -
文档评分













