搜索

pdf文档 pandas: powerful Python data analysis toolkit - 1.3.2

14.01 MB 3509 页 0 下载 93 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细记录了pandas各个版本的更新内容,包括新功能、API变化、性能改进和弃用事项。特别是版本1.3.2的更新,修复了多个性能问题,并新增了一些功能,如对JSON格式的支持、Series和DataFrame的优化等。文档还涵盖了从早期版本到最新版本的演变,包括对数据处理、分析和可视化的改进。
AI总结
### pandas 1.3.2 版本更新总结 #### 1.3.2 版本更新 - **依赖项变化**: - 添加了 `pyproject.toml` 文件,不再包含 `cythonized` 文件。 - 构建时不再需要安装 `Cython`。 - **API 变化**: - `core.groupby.GroupBy.transform` 现在在无效操作名称时会报错。 - `pandas.api.types.infer_dtype()` 返回值新增 `"integer-na"` 类型。 - `MultiIndex.from_arrays()` 不再根据数组推断名称,除非显式提供 `names` 参数。 - `unique()` 返回的 `dtype` 与输入一致。 - `options.matplotlib.register_converters` 默认值从 `True` 变为 `"auto"`。 - `Series.dropna()` 去掉了 `**kwargs` 参数,改用 `how` 参数。 - `Series.str.__iter__()` 已弃用,将在未来版本中移除。 - 新增 `` 作为 `read_csv()` 的默认缺失值。 - **性能改进与修复**: - 修复了 `DataFrame.isin()` 和 `Series.isin()` 在可空类型上的性能问题。 - 修复了 `DataFrame.drop()` 在 `MultiIndex` 上的索引问题。 - 修复了 `read_csv()` 在 `names` 和 `prefix` 都为 `None` 时的错误。 - **文档改进**: - 新增了《Scaling to large datasets》部分。 - 新增了 HDF5 数据集的多索引查询子部分。 #### 0.23.0 版本更新 - **新功能**: - 支持 `JSON` 格式与 `orient='table'` 的双向转换。 - `.assign()` 方法支持依赖参数。 - 支持在合并/排序时结合列和索引层次。 - 新增 `rolling/expand.apply()` 的 `raw=False` 参数。 - 新增 `DataFrame.interpolate` 的 `limit_area` 参数。 - 新增 `Timedelta` 的 `mod` 方法。 - **API 变化**: - `Instantiation from dicts` 保留字典插入顺序(Python 3.6+)。 - `DataFrame.apply` 的输出形状保持一致。 #### 0.13.0 版本更新 - **新功能**: - 新增 `isin` 对 `DataFrame` 的支持。 - 新增 `eval/query` 方法。 - 支持 `msgpack` 序列化和 Google BigQuery 的 I/O 接口。 - 新增 `Series.str.cat` 的 `join` 参数。 - `DataFrame.astype` 支持将列转换为 `Categorical`。 - **性能改进**: - 内部重构:`Series` 不再继承自 `ndarray`,改为继承自 `NDFrame`。 #### 0.18.0 版本更新 - **新功能**: - 新增窗口函数(如 `rolling`、`expanding`)作为方法。 - 新增 `RangeIndex` 以节省内存。 - 新增 `.to_xarray()` 方法以支持 `xarray`。 - 新增 `.str.extractall()` 方法。 - **API 变化**: - 移除对浮点数位置索引的支持。 - `resample` 方法的 API 更改为类似 `.groupby`。 #### 1.0.0 版本更新 - **新功能**: - 新增 `explode` 方法以处理嵌套数据结构。 - 新增 `merge` 和 `concat` 的更强大功能。 - **性能改进**: - 提升了 `explode` 和 `merge` 的性能。 #### 0.20.0 版本更新 - **新功能**: - 新增 `factorize` 和 `nunique` 方法。 - 新增 `plot` 的子图功能。 - **性能改进**: - 使用 `klib` 基于哈希表的索引,性能和内存使用更优。 #### 0.8.0 版本更新 - **新功能**: - 新增 `Datetime` 和 `Timedelta` 的纳秒支持。 - 新增 `StringMethods` 的 `extract` 方法。 - **性能改进**: - 提升了 `Datetime` 和 `Timedelta` 的操作性能。 #### 0.7.0 版本更新 - **新功能**: - 新增 `crosstab` 方法。 - 新增 `justify` 参数以控制 `DataFrame` 列对齐方式。 - **性能改进**: - 提升了 `crosstab` 和 `justify` 的性能。 #### 0.6.0 版本更新 - **新功能**: - 新增 `value_range` 方法。 - 新增 `abs` 方法。 - **性能改进**: - 提升了 `abs` 方法的性能。 #### 0.5.0 版本更新 - **新功能**: - 新增 `reindex_axis` 方法。 - 新增 `logy` 参数以控制 `Series.plot` 的对数刻度。 - **性能改进**: - 提升了 `reindex_axis` 和 `logy` 的性能。 #### 0.4.0 版本更新 - **新功能**: - 新增 `cummin` 和 `cummax` 方法。 - 新增 `lookup` 方法。 - **性能改进**: - 提升了 `cummin` 和 `cummax` 的性能。 #### 0.3.0 版本更新 - **新功能**: - 新增 `fillna` 和 `dropna` 方法。 - 新增 `shift` 方法。 - **性能改进**: - 提升了 `fillna` 和 `dropna` 的性能。 #### 0.2.0 版本更新 - **新功能**: - 新增 `fillna` 方法。 - 新增 `dropna` 方法。 - **性能改进**: - 提升了 `fillna` 和 `dropna` 的性能。 #### 0.1.0 版本更新 - **新功能**: - 新增 `fillna` 方法。 - 新增 `dropna` 方法。 - **性能改进**: - 提升了 `fillna` 和 `dropna` 的性能。 --- 以上为 pandas 1.3.2 以及历史版本的主要更新内容,涵盖了新功能、API 变化、性能改进和 bug 修复等方面。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3502 页请下载阅读 -
文档评分
请文明评论,理性发言.