pandas: powerful Python data analysis toolkit - 1.2.3
12.74 MB
3323 页
0 下载
108 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档介绍了pandas库的版本更新和新功能,包括0.23.0版本的重大改进,如JSON格式的支持、.assign()方法的增强、合并排序功能的提升、自定义类型扩展等。此外,文档还提到了pandas与其他工具的比较、性能优化以及数据处理的最佳实践。 | ||
| AI总结 | ||
### 总结:pandas 1.2.3 版本更新与功能亮点
#### 1. **版本概述**
- **pandas** 是一个强大的 Python 数据分析工具,版本 1.2.3 提供了多项新功能、性能优化和 API 改进。
---
#### 2. **主要版本更新**
##### **2.1 版本 0.23.0(2018 年 5 月 15 日)**
- **新增功能:**
- **JSON 支持:** 支持 `orient='table'` 的可逆 JSON 格式。
- **.assign() 方法:** 支持依赖参数,提升灵活性。
- **合并与排序:** 支持基于列和索引级别组合的合并与排序。
- **自定义类型:** 支持扩展 pandas 的自定义类型(实验性)。
- **GroupBy 改进:** 新增 `observed` 参数以排除未观察到的类别。
- **性能优化:** 提升 `DataFrame.apply` 的一致性与效率。
- **新方法:** 包括 `Timedelta.mod()`, `Series.str.cat.join`, `DataFrame.interpolate.limit_area` 等。
- **兼容性改进:** 支持 `raw=False` 以将 Series 传递给 `Rolling/Expanding.apply()`。
- **API 变化:**
- **不兼容更改:** 包括依赖项版本提升、字典初始化顺序保留(Python 3.6+)等。
- **弃用:** 部分旧方法和属性逐步淘汰。
##### **2.2 版本 0.13.0**
- **新增功能:**
- **`isin` 方法:** 支持 DataFrame 的 `isin` 操作。
- **新方法:** 包括 `eval/query` 表达式评估、`msgpack` 序列化支持、Google BigQuery 的 I/O 接口。
- **性能优化:** 通过 `eval/query` 提升 pandas 性能。
- **兼容性改进:** 支持 Python 2/3 无需额外转换(感谢 `@jtratner`)。
- **API 变化:**
- **Series 内部重构:** Series 不再继承于 `ndarray`,转为继承 `NDFrame`(透明化改动)。
- **新依赖:** `read_excel` 支持整数索引选择工作表。
- **文本解析改进:** 将类似 `inf` 的字符串识别为无穷大值。
- **兼容性增强:** `pandas.compat` 集成了 `six` 库功能,支持 Python 3 兼容。
##### **2.3 版本 1.0**
- **性能优化:**
- 提升内存管理与大规模数据处理能力。
- 支持时区感知数据处理。
- **新功能:**
- **文档改进:** 新增《Scaling to large datasets》章节,优化教程内容。
- **API 变化:**
- **弃用:** `Index.set_value` 已弃用,建议使用 `arr[idx.get_loc(idx_val)] = val` 替代。
- **默认配置调整:** `options.matplotlib.register_converters` 默认值改为 `"auto"`。
##### **2.4 版本 0.7.1(2012 年 2 月 29 日)**
- **新增功能:**
- **`to_clipboard` 方法:** 支持将对象写入系统剪贴板。
- **`itertuples` 方法:** 提供 DataFrame 行迭代功能。
- **`between` 方法:** 支持 Series 的区间判断。
- **HTML 表示钩子:** 优化 IPython HTML 笔记本中的 DataFrame 显示。
- **性能改进:**
- 优化 `fillna` 的性能与内存使用。
---
#### 3. **核心功能亮点**
- **数据结构:** pandas 提供 `Series`(1D 标签数组)和 `DataFrame`(2D 标签表格),支持异构数据类型。
- **数据处理:** 支持数据清洗、筛选、聚合、分组操作,适用于金融、科学计算等场景。
- **性能与扩展性:** 通过 Cython 优化底层算法,支持大规模数据处理。
- **兼容性:** 支持多种数据源(CSV、Excel、JSON、HDF5 等)和 Python 版本。
---
#### 4. **总结**
pandas 1.2.3 版本在功能、性能和兼容性方面均有显著提升,新增了多项实用功能,如 JSON 支持、自定义类型扩展、性能优化等,同时优化了文档和用户体验,适合数据科学家和开发人员使用。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
3316 页请下载阅读 -
文档评分













