pandas: powerful Python data analysis toolkit - 1.3.4 - IT文库

语言	格式	评分
英语	.pdf	3
摘要
文档主要介绍了pandas库的版本1.3.4的发行说明，包括新增功能、API变化、性能改进、弃用功能以及依赖项更新。pandas是一个强大的Python数据分析工具包，支持处理结构化数据、时间序列分析和矩阵数据等多种数据类型。版本1.3.4引入了多项改进，如新增了对MultiIndex的查询支持、增强了DataFrame的灵活性、优化了数据导入导出功能，并改进了与外部存储系统的集成。文档还详细列出了 deprecated 方法和新功能，确保用户能够顺利过渡到新版本。
AI总结
### 文档总结：《pandas: powerful Python data analysis toolkit - 1.3.4》 #### 1. 依赖项 - 新增依赖项： - `xarray 0.8.2` - `xlrd 1.1.0` - `xlsxwriter 0.9.8` - `xlwt 1.2.0` - 更多依赖项信息请参考文档的“Dependencies and Optional dependencies”部分。 --- #### 2. 版本更新 ##### 版本 1.0 - 新增功能： - 添加 `pyproject.toml` 文件，不再将 `cythonized` 文件包含在 PyPI 提交的源代码中。 - `Series.dropna()` 去掉了 `kwargs` 参数，改用 `how` 参数。 - `pandas.custom formatters` 的应用范围从所有绘图改为仅限于通过 `plot()` 创建的绘图。 - `unique()` 方法的返回数据类型与输入数据类型一致。 - 新增 `query` 方法对 HDF5 数据集的支持。 - 新增 `_deprecations` 属性，用于查看已弃用的属性。 - API 改变： - `core.groupby.GroupBy.transform` 在无效操作名称时会报错。 - `pandas.api.types.infer_dtype()` 现在返回 `“integer-na”` 类型。 - `MultiIndex.from_arrays()` 不再根据数组推断名称。 - `eval()` 方法的 `truediv` 关键字参数已弃用。 - `DateOffset.isAnchored()` 和 `DateOffset.onOffset()` 已弃用，建议使用 `is_anchored()` 和 `is_on_offset()`。 - 性能改进： - 新增 `normalize` 参数到 `offsets`，默认为 `False`（保留时间）。 - 新增 `dropna` 参数到 `value_counts` 和 `nunique` 方法。 ##### 版本 0.14 - API 改变： - `StringMethods.extract` 在无匹配时返回 `NaN` 值，数据类型从 `float` 改为 `object`。 - `Period` 对象在比较时不再抛出 `TypeError`，返回 `False`。 - 时间偏移操作默认保留时间（`normalize=False`）。 - 新增功能： - 新增 `select_dtypes()` 方法，允许基于数据类型选择列。 - 新增 `dropna` 参数到 `value_counts` 和 `nunique` 方法。 ##### 版本 0.20 - API 改变： - `eval()` 方法的 `truediv` 关键字参数已弃用。 - `Series.argmax` 和 `Series.argmin` 已弃用。 - 新增 `pipe` 方法到 `GroupBy` 对象。 - `Categorical.rename_categories` 现在支持字典参数。 - 性能改进： - 新增 `fill_value` 参数到 `asfreq()` 和 `resample.asfreq` 方法。 - 新增 `freeze_panes` 参数到 `DataFrame.to_excel()`。 - 新增 `header_aliases` 参数到 `DataFrame.to_latex()` 和 `DataFrame.to_string()`。 ##### 版本 0.21 - API 改变： - `Series/DataFrame.squeeze()` 现在支持 `axis` 参数。 - `pd.read_csv()` 现在支持 `error_bad_lines` 和 `warn_bad_lines` 参数。 - `display.show_dimensions` 现在支持控制 `Series` 的长度显示。 - 性能改进： - 新增 `sep` 参数到 `json_normalize()` 方法。 - 新增 `remove_unused_levels()` 方法到 `MultiIndex`。 - 新增 `errors` 和 `sep` 参数到 `json_normalize()` 方法。 --- #### 3. 弃用功能 - 已弃用： - `Series.select` 和 `DataFrame.select`。 - `Index.set_value` 已弃用，建议使用 `arr[idx.get_loc(idx_val)] = val` 替代。 - `is_extension_type()` 已弃用，建议使用 `is_extension_array_dtype()`。 - 已移除的旧功能： - 移除了部分旧模块和函数，例如 `pandas.lib`, `pandas.tslib`, `pandas.computation` 等。 --- #### 4. 性能改进 - 新增 `parallel_coordinates()` 方法的 `sort_labels` 参数，支持自定义颜色和对齐方式。 - 新增 `bottleneck` 和 `numexpr` 的兼容性选项。 --- #### 5. 新功能 - 文件格式支持： - 新增 `gcsfs 0.6.0` 对 Google Cloud Storage 的支持。 - 新增 `pandas-gbq 0.12.0` 对 Google Big Query 的支持。 - 新增 `s3fs 0.4.0` 对 Amazon S3 的支持。 - 其他功能： - 新增 `method` 参数到 `pd.read_html()`，支持多行表头。 - 新增 `sort_labels` 参数到 `parallel_coordinates()`。 - 新增 `method` 参数到 `pd.merge_asof()`，支持 `backward`, `forward`, 和 `nearest` 方向。 --- #### 6. 文档改进 - 新增了对大规模数据集的扩展内容。 - 新增了对 `Query MultiIndex` 的支持。 - 新增了对 `Styler` 模板的扩展内容。 --- #### 7. 其他 - 错误修复： - 修复了多个与 `infer_dtype`, `dropna`, 和 `eval` 相关的错误。 - 修复了 `TimedeltaIndex` 的自定义日期格式问题。 - 性能优化： - 提升了 `read_csv()` 和 `read_excel()` 的解析性能。 - 提升了 `GroupBy` 和 `resample` 的性能。 --- #### 8. 总结** pandas 1.3.4 版本新增了多项功能，包括对大规模数据集的支持、对时间序列操作的改进、对文件格式的扩展支持，以及对 API 的优化。同时，移除了部分已弃用的功能，并修复了多个已知错误，提升了性能和兼容性。

来源	pandas.pydata.org

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 3598 页请下载阅读 -

文档评分

helloworld

文档

1176

文章

0

码力

320

个性签名

暂无个性签名