pandas: powerful Python data analysis toolkit - 1.3.4
14.68 MB
3605 页
0 下载
89 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档主要介绍了pandas库的版本1.3.4的发行说明,包括新增功能、API变化、性能改进、弃用功能以及依赖项更新。pandas是一个强大的Python数据分析工具包,支持处理结构化数据、时间序列分析和矩阵数据等多种数据类型。版本1.3.4引入了多项改进,如新增了对MultiIndex的查询支持、增强了DataFrame的灵活性、优化了数据导入导出功能,并改进了与外部存储系统的集成。文档还详细列出了 deprecated 方法和新功能,确保用户能够顺利过渡到新版本。 | ||
| AI总结 | ||
### 文档总结:《pandas: powerful Python data analysis toolkit - 1.3.4》
#### 1. **依赖项**
- **新增依赖项**:
- `xarray 0.8.2`
- `xlrd 1.1.0`
- `xlsxwriter 0.9.8`
- `xlwt 1.2.0`
- **更多依赖项信息**请参考文档的“Dependencies and Optional dependencies”部分。
---
#### 2. **版本更新**
##### **版本 1.0**
- **新增功能**:
- 添加 `pyproject.toml` 文件,不再将 `cythonized` 文件包含在 PyPI 提交的源代码中。
- `Series.dropna()` 去掉了 `**kwargs` 参数,改用 `how` 参数。
- `pandas.custom formatters` 的应用范围从所有绘图改为仅限于通过 `plot()` 创建的绘图。
- `unique()` 方法的返回数据类型与输入数据类型一致。
- 新增 `query` 方法对 HDF5 数据集的支持。
- 新增 `_deprecations` 属性,用于查看已弃用的属性。
- **API 改变**:
- `core.groupby.GroupBy.transform` 在无效操作名称时会报错。
- `pandas.api.types.infer_dtype()` 现在返回 `“integer-na”` 类型。
- `MultiIndex.from_arrays()` 不再根据数组推断名称。
- `eval()` 方法的 `truediv` 关键字参数已弃用。
- `DateOffset.isAnchored()` 和 `DateOffset.onOffset()` 已弃用,建议使用 `is_anchored()` 和 `is_on_offset()`。
- **性能改进**:
- 新增 `normalize` 参数到 `offsets`,默认为 `False`(保留时间)。
- 新增 `dropna` 参数到 `value_counts` 和 `nunique` 方法。
##### **版本 0.14**
- **API 改变**:
- `StringMethods.extract` 在无匹配时返回 `NaN` 值,数据类型从 `float` 改为 `object`。
- `Period` 对象在比较时不再抛出 `TypeError`,返回 `False`。
- 时间偏移操作默认保留时间(`normalize=False`)。
- **新增功能**:
- 新增 `select_dtypes()` 方法,允许基于数据类型选择列。
- 新增 `dropna` 参数到 `value_counts` 和 `nunique` 方法。
##### **版本 0.20**
- **API 改变**:
- `eval()` 方法的 `truediv` 关键字参数已弃用。
- `Series.argmax` 和 `Series.argmin` 已弃用。
- 新增 `pipe` 方法到 `GroupBy` 对象。
- `Categorical.rename_categories` 现在支持字典参数。
- **性能改进**:
- 新增 `fill_value` 参数到 `asfreq()` 和 `resample.asfreq` 方法。
- 新增 `freeze_panes` 参数到 `DataFrame.to_excel()`。
- 新增 `header_aliases` 参数到 `DataFrame.to_latex()` 和 `DataFrame.to_string()`。
##### **版本 0.21**
- **API 改变**:
- `Series/DataFrame.squeeze()` 现在支持 `axis` 参数。
- `pd.read_csv()` 现在支持 `error_bad_lines` 和 `warn_bad_lines` 参数。
- `display.show_dimensions` 现在支持控制 `Series` 的长度显示。
- **性能改进**:
- 新增 `sep` 参数到 `json_normalize()` 方法。
- 新增 `remove_unused_levels()` 方法到 `MultiIndex`。
- 新增 `errors` 和 `sep` 参数到 `json_normalize()` 方法。
---
#### 3. **弃用功能**
- **已弃用**:
- `Series.select` 和 `DataFrame.select`。
- `Index.set_value` 已弃用,建议使用 `arr[idx.get_loc(idx_val)] = val` 替代。
- `is_extension_type()` 已弃用,建议使用 `is_extension_array_dtype()`。
- **已移除的旧功能**:
- 移除了部分旧模块和函数,例如 `pandas.lib`, `pandas.tslib`, `pandas.computation` 等。
---
#### 4. **性能改进**
- 新增 `parallel_coordinates()` 方法的 `sort_labels` 参数,支持自定义颜色和对齐方式。
- 新增 `bottleneck` 和 `numexpr` 的兼容性选项。
---
#### 5. **新功能**
- **文件格式支持**:
- 新增 `gcsfs 0.6.0` 对 Google Cloud Storage 的支持。
- 新增 `pandas-gbq 0.12.0` 对 Google Big Query 的支持。
- 新增 `s3fs 0.4.0` 对 Amazon S3 的支持。
- **其他功能**:
- 新增 `method` 参数到 `pd.read_html()`,支持多行表头。
- 新增 `sort_labels` 参数到 `parallel_coordinates()`。
- 新增 `method` 参数到 `pd.merge_asof()`,支持 `backward`, `forward`, 和 `nearest` 方向。
---
#### 6. **文档改进**
- 新增了对大规模数据集的扩展内容。
- 新增了对 `Query MultiIndex` 的支持。
- 新增了对 `Styler` 模板的扩展内容。
---
#### 7. **其他**
- **错误修复**:
- 修复了多个与 `infer_dtype`, `dropna`, 和 `eval` 相关的错误。
- 修复了 `TimedeltaIndex` 的自定义日期格式问题。
- **性能优化**:
- 提升了 `read_csv()` 和 `read_excel()` 的解析性能。
- 提升了 `GroupBy` 和 `resample` 的性能。
---
#### 8. **总结**
pandas 1.3.4 版本新增了多项功能,包括对大规模数据集的支持、对时间序列操作的改进、对文件格式的扩展支持,以及对 API 的优化。同时,移除了部分已弃用的功能,并修复了多个已知错误,提升了性能和兼容性。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
3598 页请下载阅读 -
文档评分













