搜索

pdf文档 pandas: powerful Python data analysis toolkit - 1.3.3

14.65 MB 3603 页 0 下载 89 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了pandas库的版本更新和新功能。pandas是一个强大的Python数据分析工具包,提供了Series和DataFrame两种数据结构。文档详细列出了多个版本(如0.7、0.23、0.19、0.17等)的更新内容,包括新功能、性能改进、API变化和弃用功能。主要更新包括支持JSON格式、时间序列分析、数据框合并、分类数据支持、扩展数据类型等功能。文档还提到了pandas在数据分析、数据清洗、数据建模等方面的优势,并强调了其在金融和其他领域的广泛应用。
AI总结
## pandas 1.3.3 版本更新总结 ### 核心功能与改进 1. **新功能** - **Series 和 DataFrame 的 reorder_levels 方法**:支持重新排序索引层次。 - **DataFrame 的 dict-like get 函数**:提供类似字典的访问方式。 - **DataFrame.iterrows 方法**:高效遍历 DataFrame 的行。 - **DataFrame.to_panel 方法**:支持将 DataFrame 转换为 Panel。 - **reindex_axis 方法**:支持通过轴进行重新索引。 - **二元算术函数的 level 选项**:支持在 Series 和 DataFrame 上按层次广播值。 - **Panel 的属性访问和 IPython 补全**:增强 Panel 的交互体验。 - **Series.plot 的 logy 选项**:支持 Y 轴对数缩放。 - **DataFrame.to_string 的 index 和 header 选项**:支持自定义索引和列名显示。 - **DataFrame.join 方法**:支持按索引合并多个 DataFrame 或 Panel。 - **DataFrame.to_string 的 justify 选项**:支持列标题对齐方式。 - **GroupBy 的 sort 选项**:支持禁用分组键排序以提高性能。 - **Series 和 DataFrame 的 cummin 和 cummax 方法**:支持计算累积最小值和最大值。 - **value_range 函数**:新增获取 DataFrame 最值的工具函数。 - **read_csv 等方法的 encoding 选项**:支持非 ASCII 文本。 - **isin 方法**:新增索引对象的成员检查功能。 - **lookup 方法**:新增 DataFrame 的索引查找功能。 - **groupby 的层次化列名聚合**:支持传递多个聚合函数。 - **Categorical 数据的扩展支持**:新增 Categorical 类型的开发 API。 2. **性能与兼容性** - **Cython 优化**:提升低级别算法性能。 - **Python 2 支持终止**:自 2019 年起,pandas 版本不再支持 Python 2.7。 - **依赖管理**:提升最低依赖版本要求。 3. **数据处理与分析** - **时间序列分析**:新增 rolling 方法的时间感知功能。 - **分类数据支持**:支持读取和处理 Categorical 数据。 - **JSON 支持**:新增 round-trippable JSON 格式,支持 orient='table'。 - **扩展功能**:支持通过自定义类型扩展 pandas。 4. **其他改进** - **文档与教程**:新增 pandas 的开发 API 和详细文档。 - **数据导入/导出**:支持更多数据格式(如 SAS xport 文件)。 - **可视化**:新增 DataFrame 的 HTML 导出功能。 ### 重要版本更新 1. **v0.23.0** - **主要特性**: - JSON 格式支持。 - assign 方法支持依赖参数。 - 支持按列和索引层次合并和排序。 - 新增 observed 关键字以排除未观察到的分类。 - Rolling/Expanding.apply 支持 raw=False 选项。 - DataFrame.interpolate 增加 limit_area 参数。 - get_dummies 支持 dtype 参数。 - Timedelta 的 mod 方法。 - rank 方法支持处理 NaN。 - Series.str.cat 增加 join 参数。 - DataFrame.astype 支持将列转换为 Categorical 类型。 - **API 变化**: - 提升最低依赖版本。 - Python 3.6+ 保留字典插入顺序。 2. **v0.19.0** - **主要特性**: - merge_asof 函数:支持按时间序列合并。 - rolling 方法:新增时间感知功能。 - read_csv 支持 Categorical 数据。 - 新增 union_categorical 函数。 - PeriodIndex 支持 period 数据类型。 - Sparse 数据结构增强。 - 比较操作不再忽略索引。 - 新增 pandas 发展 API。 - 移除 Panel4D 和 PanelND,建议使用 xarray。 - **重要警告**: - 移除 deprecated 模块 pandas.io.data、pandas.io.wb、pandas.tools.rplot。 - 不再静默处理 numpy 警告。 3. **v0.17.0** - **主要特性**: - 释放 GIL:提升 Cython 操作性能。 - Plotting 方法优化:支持通过 .plot 属性访问。 - 重新设计排序 API。 - 支持 datetime64[ns] 时区。 - to_datetime 默认行为改为报错不可解析格式。 - HDFStore 默认禁用 dropna。 - DatetimeAccessor 新增 strftime 和 total_seconds 方法。 - Period 支持乘法频率。 - 支持 Python 3.5 和 matplotlib 1.5.0。 - **重要警告**: - 移除 pandas.io.data 模块,推荐使用 pandas-datareader。 4. **v0.6.0** - **主要特性**: - 新增 melt 函数和 level 参数。 - Series 新增 head 和 tail 方法。 - Series.isin 方法:检查值是否在给定序列中。 - 支持 read_csv 和 read_table 的 skip_footer 和 converters 选项。 - 新增 drop_duplicates 和 duplicated 方法。 - 实现 DataFrame 的逻辑运算符(&、|、^、-)。 - Series 新增 mad 方法:计算平均绝对偏差。 - 新增 QuarterEnd DateOffset。 - 支持传递列表或元组到 DataFrame.from_records。 - 支持多级分组(groupby)。 - DataFrame.sort_index 支持多列排序。 - 新增 fast get_value 和 put_value 方法。 - Series 和 DataFrame 新增 cov 方法。 - DataFrame.plot 新增 kind='bar' 选项。 - 新增 idxmin 和 idxmax 方法。 - 新增 read_clipboard 方法:从剪贴板读取数据。 - Series 新增 nunique 方法:计算唯一值数量。 - DataFrame 构造器支持使用 Series 名称作为列名。 - 支持正则表达式在 read_table 和 read_csv 中。 - 新增 DataFrame.to_html 方法。 - 支持 MaskedArray 数据。 - 新增 DataFrame.boxplot 方法。 - DataFrame.apply 支持传递额外参数。 - 实现 DataFrame.join 的向量索引。 - DataFrame.plot 新增 legend 选项。 - 支持多级 stack 和 unstack。 - 支持多列 pivot_table。 - 使用 Series 名称作为 GroupBy 的结果索引。 ### 总结 pandas 作为 Python 数据分析的核心工具,不断优化数据处理能力,新增功能涵盖数据重塑、时间序列分析、分类数据处理、可视化和性能优化等多个方面。用户应关注版本更新以充分利用最新功能,并注意 API 变化和兼容性问题。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3596 页请下载阅读 -
文档评分
请文明评论,理性发言.