pandas: powerful Python data analysis toolkit - 1.3.3
14.65 MB
3603 页
0 下载
90 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档主要介绍了pandas库的版本更新和新功能。pandas是一个强大的Python数据分析工具包,提供了Series和DataFrame两种数据结构。文档详细列出了多个版本(如0.7、0.23、0.19、0.17等)的更新内容,包括新功能、性能改进、API变化和弃用功能。主要更新包括支持JSON格式、时间序列分析、数据框合并、分类数据支持、扩展数据类型等功能。文档还提到了pandas在数据分析、数据清洗、数据建模等方面的优势,并强调了其在金融和其他领域的广泛应用。 | ||
| AI总结 | ||
## pandas 1.3.3 版本更新总结
### 核心功能与改进
1. **新功能**
- **Series 和 DataFrame 的 reorder_levels 方法**:支持重新排序索引层次。
- **DataFrame 的 dict-like get 函数**:提供类似字典的访问方式。
- **DataFrame.iterrows 方法**:高效遍历 DataFrame 的行。
- **DataFrame.to_panel 方法**:支持将 DataFrame 转换为 Panel。
- **reindex_axis 方法**:支持通过轴进行重新索引。
- **二元算术函数的 level 选项**:支持在 Series 和 DataFrame 上按层次广播值。
- **Panel 的属性访问和 IPython 补全**:增强 Panel 的交互体验。
- **Series.plot 的 logy 选项**:支持 Y 轴对数缩放。
- **DataFrame.to_string 的 index 和 header 选项**:支持自定义索引和列名显示。
- **DataFrame.join 方法**:支持按索引合并多个 DataFrame 或 Panel。
- **DataFrame.to_string 的 justify 选项**:支持列标题对齐方式。
- **GroupBy 的 sort 选项**:支持禁用分组键排序以提高性能。
- **Series 和 DataFrame 的 cummin 和 cummax 方法**:支持计算累积最小值和最大值。
- **value_range 函数**:新增获取 DataFrame 最值的工具函数。
- **read_csv 等方法的 encoding 选项**:支持非 ASCII 文本。
- **isin 方法**:新增索引对象的成员检查功能。
- **lookup 方法**:新增 DataFrame 的索引查找功能。
- **groupby 的层次化列名聚合**:支持传递多个聚合函数。
- **Categorical 数据的扩展支持**:新增 Categorical 类型的开发 API。
2. **性能与兼容性**
- **Cython 优化**:提升低级别算法性能。
- **Python 2 支持终止**:自 2019 年起,pandas 版本不再支持 Python 2.7。
- **依赖管理**:提升最低依赖版本要求。
3. **数据处理与分析**
- **时间序列分析**:新增 rolling 方法的时间感知功能。
- **分类数据支持**:支持读取和处理 Categorical 数据。
- **JSON 支持**:新增 round-trippable JSON 格式,支持 orient='table'。
- **扩展功能**:支持通过自定义类型扩展 pandas。
4. **其他改进**
- **文档与教程**:新增 pandas 的开发 API 和详细文档。
- **数据导入/导出**:支持更多数据格式(如 SAS xport 文件)。
- **可视化**:新增 DataFrame 的 HTML 导出功能。
### 重要版本更新
1. **v0.23.0**
- **主要特性**:
- JSON 格式支持。
- assign 方法支持依赖参数。
- 支持按列和索引层次合并和排序。
- 新增 observed 关键字以排除未观察到的分类。
- Rolling/Expanding.apply 支持 raw=False 选项。
- DataFrame.interpolate 增加 limit_area 参数。
- get_dummies 支持 dtype 参数。
- Timedelta 的 mod 方法。
- rank 方法支持处理 NaN。
- Series.str.cat 增加 join 参数。
- DataFrame.astype 支持将列转换为 Categorical 类型。
- **API 变化**:
- 提升最低依赖版本。
- Python 3.6+ 保留字典插入顺序。
2. **v0.19.0**
- **主要特性**:
- merge_asof 函数:支持按时间序列合并。
- rolling 方法:新增时间感知功能。
- read_csv 支持 Categorical 数据。
- 新增 union_categorical 函数。
- PeriodIndex 支持 period 数据类型。
- Sparse 数据结构增强。
- 比较操作不再忽略索引。
- 新增 pandas 发展 API。
- 移除 Panel4D 和 PanelND,建议使用 xarray。
- **重要警告**:
- 移除 deprecated 模块 pandas.io.data、pandas.io.wb、pandas.tools.rplot。
- 不再静默处理 numpy 警告。
3. **v0.17.0**
- **主要特性**:
- 释放 GIL:提升 Cython 操作性能。
- Plotting 方法优化:支持通过 .plot 属性访问。
- 重新设计排序 API。
- 支持 datetime64[ns] 时区。
- to_datetime 默认行为改为报错不可解析格式。
- HDFStore 默认禁用 dropna。
- DatetimeAccessor 新增 strftime 和 total_seconds 方法。
- Period 支持乘法频率。
- 支持 Python 3.5 和 matplotlib 1.5.0。
- **重要警告**:
- 移除 pandas.io.data 模块,推荐使用 pandas-datareader。
4. **v0.6.0**
- **主要特性**:
- 新增 melt 函数和 level 参数。
- Series 新增 head 和 tail 方法。
- Series.isin 方法:检查值是否在给定序列中。
- 支持 read_csv 和 read_table 的 skip_footer 和 converters 选项。
- 新增 drop_duplicates 和 duplicated 方法。
- 实现 DataFrame 的逻辑运算符(&、|、^、-)。
- Series 新增 mad 方法:计算平均绝对偏差。
- 新增 QuarterEnd DateOffset。
- 支持传递列表或元组到 DataFrame.from_records。
- 支持多级分组(groupby)。
- DataFrame.sort_index 支持多列排序。
- 新增 fast get_value 和 put_value 方法。
- Series 和 DataFrame 新增 cov 方法。
- DataFrame.plot 新增 kind='bar' 选项。
- 新增 idxmin 和 idxmax 方法。
- 新增 read_clipboard 方法:从剪贴板读取数据。
- Series 新增 nunique 方法:计算唯一值数量。
- DataFrame 构造器支持使用 Series 名称作为列名。
- 支持正则表达式在 read_table 和 read_csv 中。
- 新增 DataFrame.to_html 方法。
- 支持 MaskedArray 数据。
- 新增 DataFrame.boxplot 方法。
- DataFrame.apply 支持传递额外参数。
- 实现 DataFrame.join 的向量索引。
- DataFrame.plot 新增 legend 选项。
- 支持多级 stack 和 unstack。
- 支持多列 pivot_table。
- 使用 Series 名称作为 GroupBy 的结果索引。
### 总结
pandas 作为 Python 数据分析的核心工具,不断优化数据处理能力,新增功能涵盖数据重塑、时间序列分析、分类数据处理、可视化和性能优化等多个方面。用户应关注版本更新以充分利用最新功能,并注意 API 变化和兼容性问题。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
3596 页请下载阅读 -
文档评分













