pandas: powerful Python data analysis toolkit - 0.20.2
7.83 MB
1907 页
0 下载
74 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档介绍了pandas 0.20.2版本的更新内容,包括新功能、性能改进和错误修复。版本0.20.2于2017年6月4日发布,主要改进包括 agg API 的增强、数据输入输出的改进、时间序列功能的优化以及对缺失值和数据对齐的支持。此外,文档还提到了对UInt64数据类型的改进、数据框的分组和重塑功能的增强,以及对HDF5、CSV和Excel文件的支持。版本还修复了多个已知问题,提升了数据处理的效率和稳定性。 | ||
| AI总结 | ||
pandas 0.20.2 是一个功能强大的数据分析工具包,旨在提供高效、灵活和直观的数据处理能力。以下是其核心内容的总结:
### 1. 版本更新
- **v0.20.2 (June 4, 2017)**:
- **增强功能**: 包括数据转换、索引、I/O、绘图、分组/重采样/滚动、稀疏数据、重塑、数值处理、分类数据和其他改进。
- **性能提升**: 在数据处理和计算速度上进行了优化。
- **错误修复**: 解决了多个关键问题,涉及数据转换、索引处理、I/O、绘图、分组操作、稀疏数据、重塑、数值处理、分类数据和其他方面。
- **v0.20.1 (May 5, 2017)**:
- **新功能**:
- **agg API**: 提供了类似分组、滚动和重采样的API。
- **feather 格式支持**: 新增了`read_feather()`和`to_feather()`方法。
- **.to_datetime() 的 origin 参数**: 增加了时间戳的原点参数。
- **UInt64 支持增强**: 提升了对无符号整数的支持。
- **IntervalIndex**: 新增区间索引功能。
- **JSON 序列化支持**: 新增`orient='table'`选项,遵循Table Schema规范。
- **Excel 导出支持**: 支持将格式化后的DataFrame导出到Excel。
- **API 变化**: 包括弃用`.ix`索引器和`Panel`,改用`s3fs`处理S3文件,以及将Google BigQuery支持移至第三方库。
### 2. 核心功能
- **数据结构**: 提供Series(1维)和DataFrame(2维)结构,适用于表格数据、时间序列、矩阵数据等多种场景。
- **缺失值处理**: 支持NaN表示缺失值,便于数据清洗和分析。
- **数据操作**: 包括数据对齐、合并、重塑、分组聚合、时间序列分析等功能。
- **性能优化**: 通过Cython实现底层算法,提升计算效率。
### 3. 用户指南
- **教程**: 提供快速入门指南,涵盖数据导入导出、数据操作、缺失值处理、绘图等内容。
- **实践指南**: 通过实际案例介绍数据清洗、聚合、可视化和时间序列分析。
- **资源**: 提供丰富的教程和实践练习,帮助用户提升技能。
### 4. 注意事项
- **兼容性警告**: 由于内部结构变化,非顶层导入可能受影响,需检查依赖项目。
- **性能提示**: 若专注于特定功能,可开发更高效的专用工具。
pandas 0.20.2通过增强功能和优化性能,进一步巩固了其在数据科学领域的地位,是处理复杂数据任务的理想工具。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
1900 页请下载阅读 -
文档评分













