pandas: powerful Python data analysis toolkit - 1.2.0
10.91 MB
3313 页
0 下载
92 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档详细介绍了pandas 1.2.0版本的更新内容,包括新功能的添加、性能的提升、API的变化以及对旧版本Python的支持终止。版本更新涵盖了窗口函数的改进、RangeIndex的支持、.resample方法的调整等。此外,文档还提到了多项性能改进和bug修复,以及对用户可能遇到的兼容性问题的警告。新版本还引入了对xarray的支持、sas7bdat文件的读取功能,以及一系列与字符串操作相关的方法改进。文档还提到了pandas的未来 roadmap,包括扩展类型的支持和字符串数据类型的优化。 | ||
| AI总结 | ||
### pandas 1.2.0 版本总结
#### 版本概述
pandas 1.2.0 是一个重要的版本更新,包含多项新功能、性能改进和 bug 修复。以下是主要更新内容和关键信息:
---
### 1. **版本兼容性**
- **Python 版本**:不再支持 Python 2.6 和 3.3(从 0.18.0 版本起)。
- **numexpr 版本**:numexpr 2.4.4 因存在 bug 而不再被推荐使用,建议使用 2.1 或更高版本(>=2.4.6)。
---
### 2. **主要新功能**
- **窗口函数**:将窗口函数(如 rolling、expanding、apply)作为 `Series` 和 `DataFrame` 的方法提供,类似于 `.groupby`。
- **RangeIndex**:引入 `RangeIndex` 作为 `Int64Index` 的一种特殊形式,优化内存使用。
- **新方法**:
- `.to_xarray()`:支持与 xarray 包的兼容性。
- `.str.extractall()`:新增字符串提取方法。
- `.str.cat()`:改进字符串连接功能。
- **新功能**:
- 支持 `sas7bdat` 文件格式的读取。
- 增加 `DatetimeIndex` 的时间格式化功能。
- `IntervalIndex` 的引入。
- 支持 `DataFrame.sort_index` 和 `GroupBy.describe` 的新格式。
---
### 3. **API 破坏性更改**
- **`.resample` 方法**:修改为与 `.groupby` 更一致。
- **位置索引**:移除对浮点数位置索引的支持,将引发 `TypeError`。
- **`.ix` 和 `.plotting`**:已弃用。
- **`.test()` 方法**:新增 `pd.test()` 作为测试运行器。
---
### 4. **性能改进**
- **内存优化**:`Index` 和 `DataFrame` 的内存使用更准确。
- **计算性能**:优化了窗口函数和 `.str` 方法的性能。
- **依赖项**:引入 `pyproject.toml` 文件,不再包含预编译的 Cython 文件。
---
### 5. **其他重要更新**
- **文档改进**:新增“大数据集扩展”部分和 HDF5 查询文档。
- **测试要求**:最小 pytest 版本提升至 5.0.1。
- **字符串处理**:新增 ` | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
3306 页请下载阅读 -
文档评分













