搜索

pdf文档 pandas: powerful Python data analysis toolkit - 1.4.4

15.26 MB 3743 页 1 下载 74 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了pandas 1.4.4版本的更新内容,包括新功能、性能改进、错误修复以及对依赖项的更新。重点提到了DataFrame和Series的增强,如改进的fillna方法、concat功能的优化,以及对用户在数据处理中的常见问题的解决。此外,文档还列出了对旧版本的兼容性问题和新的依赖项要求。
AI总结
### pandas 1.4.4 版本总结 #### 1. 版本概述 pandas 是一个强大的 Python 数据分析工具包,致力于提供高效、灵活且直观的数据结构,适用于关系型或标记化数据的分析。1.4.4 版本在功能、性能和兼容性方面均有显著提升。 --- #### 2. 核心功能 - **数据结构**: pandas 提供 Series(一维)和 DataFrame(二维)两种主要数据结构,适用于金融、统计、社会科学和工程等领域。 - **数据处理能力**: - 支持缺失值处理(NaN)。 - 支持数据对齐、分组操作(split-apply-combine)。 - 提供强大的数据重塑和时间序列分析功能。 - 支持多种数据输入输出格式,包括 Excel、CSV、JSON 等。 --- #### 3. 1.4.4 版本新功能与改进 - **增强功能**: - 支持压缩文件(如 ZIP、GZ)的读取和写入。 - 提升对 Google BigQuery 和 Amazon S3 的访问支持。 - 增加 `to_latex()` 和 `to_string()` 的可选标题别名。 - 支持通过 `.empty` 属性快速判断 Index 是否为空。 - 支持 `Timedelta` 和 `TimedeltaIndex` 的整数除法。 - 支持 `json_normalize()` 的新参数(如 `sep` 和 `errors`)。 - 增加 `MultiIndex.remove_unused_levels()` 方法。 - **性能与稳定性**: - 提升 `fillna()` 的性能和稳定性。 - 优化 `concat()` 和 `merge()` 对扩展数组(ExtensionArray)的处理。 - 修复 `DataFrame.loc()` 在某些情况下的索引对齐问题。 - 优化 `cut()` 使用 `DatetimeIndex` 作为分箱边界时的性能。 - **其他改进**: - 支持将数据直接复制到剪贴板(`to_clipboard()`)。 - 改进 `SettingWithCopyWarning` 的报错信息,便于定位问题。 - 支持通过 `.dt` 属性访问时间序列数据。 --- #### 4. 兼容性与 API 变化 - **不兼容更改**: - 弃用 `.ix` 和 `Panel`。 - `GroupBy.agg()` 不再支持字典重命名。 - `pd.TimeSeries` 已被弃用,建议使用 `pd.Series` 替代。 - 部分与 HDF5 格式(pandas < 0.13.0 创建)不兼容。 - **依赖项更新**: - `beautifulsoup4` 最低版本要求为 4.6.0。 - `fastparquet` 最低版本要求为 0.3.2。 - `lxml` 最低版本要求为 3.8.0。 --- #### 5. 其他重要信息 - **性能优化**: - 提升了 `fillna()` 的性能。 - 支持通过 `bottleneck` 和 `numexpr` 加速计算。 - **新功能**: - 增加 `DataFrame.sort_index()` 的新参数。 - 支持 `IntervalIndex`。 - 支持 `parallel_coordinates()` 的新参数(如 `sort_labels` 和颜色自定义)。 --- #### 6. 总结 pandas 1.4.4 版本在功能、性能和兼容性方面均有显著提升,特别增强了对扩展数据类型、压缩文件和云存储的支持。建议用户升级到此版本以获得更好的数据分析体验,但需注意部分 API 的不兼容变化。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3736 页请下载阅读 -
文档评分
请文明评论,理性发言.