搜索

pdf文档 pandas: powerful Python data analysis toolkit - 1.2.3

12.74 MB 3323 页 0 下载 108 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了pandas库的版本更新和新功能,包括0.23.0版本的重大改进,如JSON格式的支持、.assign()方法的增强、合并排序功能的提升、自定义类型扩展等。此外,文档还提到了pandas与其他工具的比较、性能优化以及数据处理的最佳实践。
AI总结
### 总结:pandas 1.2.3 版本更新与功能亮点 #### 1. **版本概述** - **pandas** 是一个强大的 Python 数据分析工具,版本 1.2.3 提供了多项新功能、性能优化和 API 改进。 --- #### 2. **主要版本更新** ##### **2.1 版本 0.23.0(2018 年 5 月 15 日)** - **新增功能:** - **JSON 支持:** 支持 `orient='table'` 的可逆 JSON 格式。 - **.assign() 方法:** 支持依赖参数,提升灵活性。 - **合并与排序:** 支持基于列和索引级别组合的合并与排序。 - **自定义类型:** 支持扩展 pandas 的自定义类型(实验性)。 - **GroupBy 改进:** 新增 `observed` 参数以排除未观察到的类别。 - **性能优化:** 提升 `DataFrame.apply` 的一致性与效率。 - **新方法:** 包括 `Timedelta.mod()`, `Series.str.cat.join`, `DataFrame.interpolate.limit_area` 等。 - **兼容性改进:** 支持 `raw=False` 以将 Series 传递给 `Rolling/Expanding.apply()`。 - **API 变化:** - **不兼容更改:** 包括依赖项版本提升、字典初始化顺序保留(Python 3.6+)等。 - **弃用:** 部分旧方法和属性逐步淘汰。 ##### **2.2 版本 0.13.0** - **新增功能:** - **`isin` 方法:** 支持 DataFrame 的 `isin` 操作。 - **新方法:** 包括 `eval/query` 表达式评估、`msgpack` 序列化支持、Google BigQuery 的 I/O 接口。 - **性能优化:** 通过 `eval/query` 提升 pandas 性能。 - **兼容性改进:** 支持 Python 2/3 无需额外转换(感谢 `@jtratner`)。 - **API 变化:** - **Series 内部重构:** Series 不再继承于 `ndarray`,转为继承 `NDFrame`(透明化改动)。 - **新依赖:** `read_excel` 支持整数索引选择工作表。 - **文本解析改进:** 将类似 `inf` 的字符串识别为无穷大值。 - **兼容性增强:** `pandas.compat` 集成了 `six` 库功能,支持 Python 3 兼容。 ##### **2.3 版本 1.0** - **性能优化:** - 提升内存管理与大规模数据处理能力。 - 支持时区感知数据处理。 - **新功能:** - **文档改进:** 新增《Scaling to large datasets》章节,优化教程内容。 - **API 变化:** - **弃用:** `Index.set_value` 已弃用,建议使用 `arr[idx.get_loc(idx_val)] = val` 替代。 - **默认配置调整:** `options.matplotlib.register_converters` 默认值改为 `"auto"`。 ##### **2.4 版本 0.7.1(2012 年 2 月 29 日)** - **新增功能:** - **`to_clipboard` 方法:** 支持将对象写入系统剪贴板。 - **`itertuples` 方法:** 提供 DataFrame 行迭代功能。 - **`between` 方法:** 支持 Series 的区间判断。 - **HTML 表示钩子:** 优化 IPython HTML 笔记本中的 DataFrame 显示。 - **性能改进:** - 优化 `fillna` 的性能与内存使用。 --- #### 3. **核心功能亮点** - **数据结构:** pandas 提供 `Series`(1D 标签数组)和 `DataFrame`(2D 标签表格),支持异构数据类型。 - **数据处理:** 支持数据清洗、筛选、聚合、分组操作,适用于金融、科学计算等场景。 - **性能与扩展性:** 通过 Cython 优化底层算法,支持大规模数据处理。 - **兼容性:** 支持多种数据源(CSV、Excel、JSON、HDF5 等)和 Python 版本。 --- #### 4. **总结** pandas 1.2.3 版本在功能、性能和兼容性方面均有显著提升,新增了多项实用功能,如 JSON 支持、自定义类型扩展、性能优化等,同时优化了文档和用户体验,适合数据科学家和开发人员使用。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3316 页请下载阅读 -
文档评分
请文明评论,理性发言.