搜索

pdf文档 pandas: powerful Python data analysis toolkit - 0.20.2

7.83 MB 1907 页 0 下载 74 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了pandas 0.20.2版本的更新内容,包括新功能、性能改进和错误修复。版本0.20.2于2017年6月4日发布,主要改进包括 agg API 的增强、数据输入输出的改进、时间序列功能的优化以及对缺失值和数据对齐的支持。此外,文档还提到了对UInt64数据类型的改进、数据框的分组和重塑功能的增强,以及对HDF5、CSV和Excel文件的支持。版本还修复了多个已知问题,提升了数据处理的效率和稳定性。
AI总结
pandas 0.20.2 是一个功能强大的数据分析工具包,旨在提供高效、灵活和直观的数据处理能力。以下是其核心内容的总结: ### 1. 版本更新 - **v0.20.2 (June 4, 2017)**: - **增强功能**: 包括数据转换、索引、I/O、绘图、分组/重采样/滚动、稀疏数据、重塑、数值处理、分类数据和其他改进。 - **性能提升**: 在数据处理和计算速度上进行了优化。 - **错误修复**: 解决了多个关键问题,涉及数据转换、索引处理、I/O、绘图、分组操作、稀疏数据、重塑、数值处理、分类数据和其他方面。 - **v0.20.1 (May 5, 2017)**: - **新功能**: - **agg API**: 提供了类似分组、滚动和重采样的API。 - **feather 格式支持**: 新增了`read_feather()`和`to_feather()`方法。 - **.to_datetime() 的 origin 参数**: 增加了时间戳的原点参数。 - **UInt64 支持增强**: 提升了对无符号整数的支持。 - **IntervalIndex**: 新增区间索引功能。 - **JSON 序列化支持**: 新增`orient='table'`选项,遵循Table Schema规范。 - **Excel 导出支持**: 支持将格式化后的DataFrame导出到Excel。 - **API 变化**: 包括弃用`.ix`索引器和`Panel`,改用`s3fs`处理S3文件,以及将Google BigQuery支持移至第三方库。 ### 2. 核心功能 - **数据结构**: 提供Series(1维)和DataFrame(2维)结构,适用于表格数据、时间序列、矩阵数据等多种场景。 - **缺失值处理**: 支持NaN表示缺失值,便于数据清洗和分析。 - **数据操作**: 包括数据对齐、合并、重塑、分组聚合、时间序列分析等功能。 - **性能优化**: 通过Cython实现底层算法,提升计算效率。 ### 3. 用户指南 - **教程**: 提供快速入门指南,涵盖数据导入导出、数据操作、缺失值处理、绘图等内容。 - **实践指南**: 通过实际案例介绍数据清洗、聚合、可视化和时间序列分析。 - **资源**: 提供丰富的教程和实践练习,帮助用户提升技能。 ### 4. 注意事项 - **兼容性警告**: 由于内部结构变化,非顶层导入可能受影响,需检查依赖项目。 - **性能提示**: 若专注于特定功能,可开发更高效的专用工具。 pandas 0.20.2通过增强功能和优化性能,进一步巩固了其在数据科学领域的地位,是处理复杂数据任务的理想工具。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 1900 页请下载阅读 -
文档评分
请文明评论,理性发言.