pandas: powerful Python data analysis toolkit - 1.1.1
10.87 MB
3231 页
0 下载
85 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档详细介绍了pandas 1.1.1版本的更新内容,包括新功能、性能改进和API变化。新增功能包括cut和qcut函数、Categorical类型、fillna和reindex的limit参数等。性能方面,使用klib-based哈希表优化内存使用,支持更多数据格式和高级时间序列操作。文档还提到了对复杂数据类型和缺失值处理的改进,并更新了依赖项和安装指南。 | ||
| AI总结 | ||
### 《pandas: Powerful Python Data Analysis Toolkit - 1.1.1》总结
#### 核心更新与新功能
1. **新功能**
- **cut 和 qcut 函数**: 类似 R 的 cut 函数,用于将连续变量划分为基于值或分位数的分箱。
- **Factor 重命名为 Categorical**: 提升分类数据的易用性。
- **fillna 和 reindex 的 limit 参数**: 支持按顺序填充或重索引。
- **GroupBy 的增强**: 支持传递函数列表,并按指定顺序返回结果。
- **replace 方法**: 提供更高效的值替换功能。
- **时间序列数据处理**: 优化 read_csv 和 read_table 对时间序列数据的解析。
- **CSV 解析增强**: 支持自定义 dialect、千分位符和国际日期格式 (DD/MM/YYYY)。
- **绘图功能**:
- Series.plot 支持 secondary_y 选项。
- scatter_matrix 增加直方图或核密度估计。
- 新增 'kde' 绘图选项用于密度图。
- **DataFrame 转换**: 支持通过 rpy2 转换为 R 的 data.frame。
- **复杂数支持**: 提升 Series 和 DataFrame 对复数的处理能力。
- **pct_change 方法**: 支持所有数据结构的百分比变化计算。
- **max_colwidth 配置**: 控制 DataFrame 控制台输出的列宽。
- **插值功能**: 支持使用索引值插值 Series。
- **GroupBy 的多列选择**: 可直接从 GroupBy 中选择多列。
2. **性能优化与改进**
- **索引性能**: 使用 klib-based 哈希表替代 Python 的 dict,提升性能并减少内存占用。
- **GroupBy 函数优化**: 增加首、尾、最小值、最大值和乘积的优化函数。
- **构建过程**: 引入 pyproject.toml 文件,移除 Cythonized 文件,简化构建流程。
3. **API 变化**
- **GroupBy.transform**: 现在对无效操作名称会报错。
- **infer_dtype**: 返回 "integer-na" 表示整数和 NaN 的混合。
- **MultiIndex.from_arrays**: 明确提供 names=None 时不再推断名称。
- **Series.dropna**: 去除 **kwargs,仅支持 how 参数。
- **matplotlib 注册转换器**: 默认值从 True 改为 "auto",仅在 pandas 绘图时应用格式化。
- **pytest 版本要求**: 最低版本提升至 5.0.1。
4. **依赖管理**
- **最低版本要求**: 更新了部分依赖库的最低版本,如 beautifulsoup4、lxml、matplotlib 等。
- **可选依赖**: 提供更多扩展功能,如 fastparquet、openpyxl、pyarrow 等。
#### 版本历史与重要更新
- **0.10.0 版本**: 重构文件解析引擎,提升性能和内存效率,新增 Unicode 处理、CSV 解析选项等。
- **0.11.0 版本**: 引入多轴索引 (.loc、.iloc、.xs),增强时间序列功能,新增 Cookbook 文档。
#### 总结
pandas 1.1.1 版本在功能、性能和易用性上均有显著提升,新增了大量实用功能,优化了时间序列、绘图和数据处理能力,同时改进了 API 设计和依赖管理,为数据分析提供了更强大的支持。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
3224 页请下载阅读 -
文档评分













