搜索

pdf文档 pandas: powerful Python data analysis toolkit - 1.1.1

10.87 MB 3231 页 0 下载 85 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了pandas 1.1.1版本的更新内容,包括新功能、性能改进和API变化。新增功能包括cut和qcut函数、Categorical类型、fillna和reindex的limit参数等。性能方面,使用klib-based哈希表优化内存使用,支持更多数据格式和高级时间序列操作。文档还提到了对复杂数据类型和缺失值处理的改进,并更新了依赖项和安装指南。
AI总结
### 《pandas: Powerful Python Data Analysis Toolkit - 1.1.1》总结 #### 核心更新与新功能 1. **新功能** - **cut 和 qcut 函数**: 类似 R 的 cut 函数,用于将连续变量划分为基于值或分位数的分箱。 - **Factor 重命名为 Categorical**: 提升分类数据的易用性。 - **fillna 和 reindex 的 limit 参数**: 支持按顺序填充或重索引。 - **GroupBy 的增强**: 支持传递函数列表,并按指定顺序返回结果。 - **replace 方法**: 提供更高效的值替换功能。 - **时间序列数据处理**: 优化 read_csv 和 read_table 对时间序列数据的解析。 - **CSV 解析增强**: 支持自定义 dialect、千分位符和国际日期格式 (DD/MM/YYYY)。 - **绘图功能**: - Series.plot 支持 secondary_y 选项。 - scatter_matrix 增加直方图或核密度估计。 - 新增 'kde' 绘图选项用于密度图。 - **DataFrame 转换**: 支持通过 rpy2 转换为 R 的 data.frame。 - **复杂数支持**: 提升 Series 和 DataFrame 对复数的处理能力。 - **pct_change 方法**: 支持所有数据结构的百分比变化计算。 - **max_colwidth 配置**: 控制 DataFrame 控制台输出的列宽。 - **插值功能**: 支持使用索引值插值 Series。 - **GroupBy 的多列选择**: 可直接从 GroupBy 中选择多列。 2. **性能优化与改进** - **索引性能**: 使用 klib-based 哈希表替代 Python 的 dict,提升性能并减少内存占用。 - **GroupBy 函数优化**: 增加首、尾、最小值、最大值和乘积的优化函数。 - **构建过程**: 引入 pyproject.toml 文件,移除 Cythonized 文件,简化构建流程。 3. **API 变化** - **GroupBy.transform**: 现在对无效操作名称会报错。 - **infer_dtype**: 返回 "integer-na" 表示整数和 NaN 的混合。 - **MultiIndex.from_arrays**: 明确提供 names=None 时不再推断名称。 - **Series.dropna**: 去除 **kwargs,仅支持 how 参数。 - **matplotlib 注册转换器**: 默认值从 True 改为 "auto",仅在 pandas 绘图时应用格式化。 - **pytest 版本要求**: 最低版本提升至 5.0.1。 4. **依赖管理** - **最低版本要求**: 更新了部分依赖库的最低版本,如 beautifulsoup4、lxml、matplotlib 等。 - **可选依赖**: 提供更多扩展功能,如 fastparquet、openpyxl、pyarrow 等。 #### 版本历史与重要更新 - **0.10.0 版本**: 重构文件解析引擎,提升性能和内存效率,新增 Unicode 处理、CSV 解析选项等。 - **0.11.0 版本**: 引入多轴索引 (.loc、.iloc、.xs),增强时间序列功能,新增 Cookbook 文档。 #### 总结 pandas 1.1.1 版本在功能、性能和易用性上均有显著提升,新增了大量实用功能,优化了时间序列、绘图和数据处理能力,同时改进了 API 设计和依赖管理,为数据分析提供了更强大的支持。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3224 页请下载阅读 -
文档评分
请文明评论,理性发言.