pandas: powerful Python data analysis toolkit - 1.1.1 - IT文库

语言	格式	评分
英语	.pdf	3
摘要
文档详细介绍了pandas 1.1.1版本的更新内容，包括新功能、性能改进和API变化。新增功能包括cut和qcut函数、Categorical类型、fillna和reindex的limit参数等。性能方面，使用klib-based哈希表优化内存使用，支持更多数据格式和高级时间序列操作。文档还提到了对复杂数据类型和缺失值处理的改进，并更新了依赖项和安装指南。
AI总结
### 《pandas: Powerful Python Data Analysis Toolkit - 1.1.1》总结 #### 核心更新与新功能 1. 新功能 - cut 和 qcut 函数: 类似 R 的 cut 函数，用于将连续变量划分为基于值或分位数的分箱。 - Factor 重命名为 Categorical: 提升分类数据的易用性。 - fillna 和 reindex 的 limit 参数: 支持按顺序填充或重索引。 - GroupBy 的增强: 支持传递函数列表，并按指定顺序返回结果。 - replace 方法: 提供更高效的值替换功能。 - 时间序列数据处理: 优化 read_csv 和 read_table 对时间序列数据的解析。 - CSV 解析增强: 支持自定义 dialect、千分位符和国际日期格式 (DD/MM/YYYY)。 - 绘图功能: - Series.plot 支持 secondary_y 选项。 - scatter_matrix 增加直方图或核密度估计。 - 新增 'kde' 绘图选项用于密度图。 - DataFrame 转换: 支持通过 rpy2 转换为 R 的 data.frame。 - 复杂数支持: 提升 Series 和 DataFrame 对复数的处理能力。 - pct_change 方法: 支持所有数据结构的百分比变化计算。 - max_colwidth 配置: 控制 DataFrame 控制台输出的列宽。 - 插值功能: 支持使用索引值插值 Series。 - GroupBy 的多列选择: 可直接从 GroupBy 中选择多列。 2. 性能优化与改进 - 索引性能: 使用 klib-based 哈希表替代 Python 的 dict，提升性能并减少内存占用。 - GroupBy 函数优化: 增加首、尾、最小值、最大值和乘积的优化函数。 - 构建过程: 引入 pyproject.toml 文件，移除 Cythonized 文件，简化构建流程。 3. API 变化 - GroupBy.transform: 现在对无效操作名称会报错。 - infer_dtype: 返回 "integer-na" 表示整数和 NaN 的混合。 - MultiIndex.from_arrays: 明确提供 names=None 时不再推断名称。 - Series.dropna: 去除 kwargs，仅支持 how 参数。 - matplotlib 注册转换器: 默认值从 True 改为 "auto"，仅在 pandas 绘图时应用格式化。 - pytest 版本要求: 最低版本提升至 5.0.1。 4. 依赖管理 - 最低版本要求: 更新了部分依赖库的最低版本，如 beautifulsoup4、lxml、matplotlib 等。 - 可选依赖: 提供更多扩展功能，如 fastparquet、openpyxl、pyarrow 等。 #### 版本历史与重要更新 - 0.10.0 版本: 重构文件解析引擎，提升性能和内存效率，新增 Unicode 处理、CSV 解析选项等。 - 0.11.0 版本**: 引入多轴索引 (.loc、.iloc、.xs)，增强时间序列功能，新增 Cookbook 文档。 #### 总结 pandas 1.1.1 版本在功能、性能和易用性上均有显著提升，新增了大量实用功能，优化了时间序列、绘图和数据处理能力，同时改进了 API 设计和依赖管理，为数据分析提供了更强大的支持。

来源	pandas.pydata.org

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 3224 页请下载阅读 -

文档评分

helloworld

文档

1176

文章

0

码力

320

个性签名

暂无个性签名