搜索

pdf文档 pandas: powerful Python data analysis toolkit - 1.2.0

10.91 MB 3313 页 0 下载 92 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了pandas 1.2.0版本的更新内容,包括新功能的添加、性能的提升、API的变化以及对旧版本Python的支持终止。版本更新涵盖了窗口函数的改进、RangeIndex的支持、.resample方法的调整等。此外,文档还提到了多项性能改进和bug修复,以及对用户可能遇到的兼容性问题的警告。新版本还引入了对xarray的支持、sas7bdat文件的读取功能,以及一系列与字符串操作相关的方法改进。文档还提到了pandas的未来 roadmap,包括扩展类型的支持和字符串数据类型的优化。
AI总结
### pandas 1.2.0 版本总结 #### 版本概述 pandas 1.2.0 是一个重要的版本更新,包含多项新功能、性能改进和 bug 修复。以下是主要更新内容和关键信息: --- ### 1. **版本兼容性** - **Python 版本**:不再支持 Python 2.6 和 3.3(从 0.18.0 版本起)。 - **numexpr 版本**:numexpr 2.4.4 因存在 bug 而不再被推荐使用,建议使用 2.1 或更高版本(>=2.4.6)。 --- ### 2. **主要新功能** - **窗口函数**:将窗口函数(如 rolling、expanding、apply)作为 `Series` 和 `DataFrame` 的方法提供,类似于 `.groupby`。 - **RangeIndex**:引入 `RangeIndex` 作为 `Int64Index` 的一种特殊形式,优化内存使用。 - **新方法**: - `.to_xarray()`:支持与 xarray 包的兼容性。 - `.str.extractall()`:新增字符串提取方法。 - `.str.cat()`:改进字符串连接功能。 - **新功能**: - 支持 `sas7bdat` 文件格式的读取。 - 增加 `DatetimeIndex` 的时间格式化功能。 - `IntervalIndex` 的引入。 - 支持 `DataFrame.sort_index` 和 `GroupBy.describe` 的新格式。 --- ### 3. **API 破坏性更改** - **`.resample` 方法**:修改为与 `.groupby` 更一致。 - **位置索引**:移除对浮点数位置索引的支持,将引发 `TypeError`。 - **`.ix` 和 `.plotting`**:已弃用。 - **`.test()` 方法**:新增 `pd.test()` 作为测试运行器。 --- ### 4. **性能改进** - **内存优化**:`Index` 和 `DataFrame` 的内存使用更准确。 - **计算性能**:优化了窗口函数和 `.str` 方法的性能。 - **依赖项**:引入 `pyproject.toml` 文件,不再包含预编译的 Cython 文件。 --- ### 5. **其他重要更新** - **文档改进**:新增“大数据集扩展”部分和 HDF5 查询文档。 - **测试要求**:最小 pytest 版本提升至 5.0.1。 - **字符串处理**:新增 `` 作为默认缺失值处理。 - **开发政策**:扩展类型(Extension Arrays)的使用更加一致,支持自定义数据类型。 --- ### 6. **安装与依赖** - **安装建议**:推荐使用 Anaconda 分发,包含 pandas 和 SciPy 生态系统的完整支持。 - **依赖管理**:更新了 xlrd、xlsxwriter 和 xlwt 的版本。 --- ### 7. **路线图** - **扩展性**:改进对扩展类型的处理,优化与 NumPy 的兼容性。 - **字符串数据**:引入新的字符串数据类型,解决存储效率和类型特异性问题。 --- ### 总结 pandas 1.2.0 版本在功能、性能和兼容性方面均有显著提升,建议用户升级到该版本以获得更好的数据分析体验。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3306 页请下载阅读 -
文档评分
请文明评论,理性发言.