搜索

pdf文档 pandas: powerful Python data analysis toolkit - 1.3.4

14.68 MB 3605 页 0 下载 89 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了pandas库的版本1.3.4的发行说明,包括新增功能、API变化、性能改进、弃用功能以及依赖项更新。pandas是一个强大的Python数据分析工具包,支持处理结构化数据、时间序列分析和矩阵数据等多种数据类型。版本1.3.4引入了多项改进,如新增了对MultiIndex的查询支持、增强了DataFrame的灵活性、优化了数据导入导出功能,并改进了与外部存储系统的集成。文档还详细列出了 deprecated 方法和新功能,确保用户能够顺利过渡到新版本。
AI总结
### 文档总结:《pandas: powerful Python data analysis toolkit - 1.3.4》 #### 1. **依赖项** - **新增依赖项**: - `xarray 0.8.2` - `xlrd 1.1.0` - `xlsxwriter 0.9.8` - `xlwt 1.2.0` - **更多依赖项信息**请参考文档的“Dependencies and Optional dependencies”部分。 --- #### 2. **版本更新** ##### **版本 1.0** - **新增功能**: - 添加 `pyproject.toml` 文件,不再将 `cythonized` 文件包含在 PyPI 提交的源代码中。 - `Series.dropna()` 去掉了 `**kwargs` 参数,改用 `how` 参数。 - `pandas.custom formatters` 的应用范围从所有绘图改为仅限于通过 `plot()` 创建的绘图。 - `unique()` 方法的返回数据类型与输入数据类型一致。 - 新增 `query` 方法对 HDF5 数据集的支持。 - 新增 `_deprecations` 属性,用于查看已弃用的属性。 - **API 改变**: - `core.groupby.GroupBy.transform` 在无效操作名称时会报错。 - `pandas.api.types.infer_dtype()` 现在返回 `“integer-na”` 类型。 - `MultiIndex.from_arrays()` 不再根据数组推断名称。 - `eval()` 方法的 `truediv` 关键字参数已弃用。 - `DateOffset.isAnchored()` 和 `DateOffset.onOffset()` 已弃用,建议使用 `is_anchored()` 和 `is_on_offset()`。 - **性能改进**: - 新增 `normalize` 参数到 `offsets`,默认为 `False`(保留时间)。 - 新增 `dropna` 参数到 `value_counts` 和 `nunique` 方法。 ##### **版本 0.14** - **API 改变**: - `StringMethods.extract` 在无匹配时返回 `NaN` 值,数据类型从 `float` 改为 `object`。 - `Period` 对象在比较时不再抛出 `TypeError`,返回 `False`。 - 时间偏移操作默认保留时间(`normalize=False`)。 - **新增功能**: - 新增 `select_dtypes()` 方法,允许基于数据类型选择列。 - 新增 `dropna` 参数到 `value_counts` 和 `nunique` 方法。 ##### **版本 0.20** - **API 改变**: - `eval()` 方法的 `truediv` 关键字参数已弃用。 - `Series.argmax` 和 `Series.argmin` 已弃用。 - 新增 `pipe` 方法到 `GroupBy` 对象。 - `Categorical.rename_categories` 现在支持字典参数。 - **性能改进**: - 新增 `fill_value` 参数到 `asfreq()` 和 `resample.asfreq` 方法。 - 新增 `freeze_panes` 参数到 `DataFrame.to_excel()`。 - 新增 `header_aliases` 参数到 `DataFrame.to_latex()` 和 `DataFrame.to_string()`。 ##### **版本 0.21** - **API 改变**: - `Series/DataFrame.squeeze()` 现在支持 `axis` 参数。 - `pd.read_csv()` 现在支持 `error_bad_lines` 和 `warn_bad_lines` 参数。 - `display.show_dimensions` 现在支持控制 `Series` 的长度显示。 - **性能改进**: - 新增 `sep` 参数到 `json_normalize()` 方法。 - 新增 `remove_unused_levels()` 方法到 `MultiIndex`。 - 新增 `errors` 和 `sep` 参数到 `json_normalize()` 方法。 --- #### 3. **弃用功能** - **已弃用**: - `Series.select` 和 `DataFrame.select`。 - `Index.set_value` 已弃用,建议使用 `arr[idx.get_loc(idx_val)] = val` 替代。 - `is_extension_type()` 已弃用,建议使用 `is_extension_array_dtype()`。 - **已移除的旧功能**: - 移除了部分旧模块和函数,例如 `pandas.lib`, `pandas.tslib`, `pandas.computation` 等。 --- #### 4. **性能改进** - 新增 `parallel_coordinates()` 方法的 `sort_labels` 参数,支持自定义颜色和对齐方式。 - 新增 `bottleneck` 和 `numexpr` 的兼容性选项。 --- #### 5. **新功能** - **文件格式支持**: - 新增 `gcsfs 0.6.0` 对 Google Cloud Storage 的支持。 - 新增 `pandas-gbq 0.12.0` 对 Google Big Query 的支持。 - 新增 `s3fs 0.4.0` 对 Amazon S3 的支持。 - **其他功能**: - 新增 `method` 参数到 `pd.read_html()`,支持多行表头。 - 新增 `sort_labels` 参数到 `parallel_coordinates()`。 - 新增 `method` 参数到 `pd.merge_asof()`,支持 `backward`, `forward`, 和 `nearest` 方向。 --- #### 6. **文档改进** - 新增了对大规模数据集的扩展内容。 - 新增了对 `Query MultiIndex` 的支持。 - 新增了对 `Styler` 模板的扩展内容。 --- #### 7. **其他** - **错误修复**: - 修复了多个与 `infer_dtype`, `dropna`, 和 `eval` 相关的错误。 - 修复了 `TimedeltaIndex` 的自定义日期格式问题。 - **性能优化**: - 提升了 `read_csv()` 和 `read_excel()` 的解析性能。 - 提升了 `GroupBy` 和 `resample` 的性能。 --- #### 8. **总结** pandas 1.3.4 版本新增了多项功能,包括对大规模数据集的支持、对时间序列操作的改进、对文件格式的扩展支持,以及对 API 的优化。同时,移除了部分已弃用的功能,并修复了多个已知错误,提升了性能和兼容性。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3598 页请下载阅读 -
文档评分
请文明评论,理性发言.