pdf文档 pandas: powerful Python data analysis toolkit - 0.19.0

12.03 MB 1937 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
pandas: powerful Python data analysis toolkit Release 0.19.0 Wes McKinney & PyData Development Team Oct 02, 2016 CONTENTS 1 What’s New 3 1.1 v0.19.0 (October 2, 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
AI总结
以下是文档内容的中文总结: --- **文档总结:《Pandas: powerful Python data analysis toolkit - 0.19.0》** ### 文档概述 该文档主要介绍了Pandas库的功能、版本更新及相关信息,强调其作为强大的Python数据分析工具的优势。 --- ### 核心功能与特性 - **Pandas简介**: Pandas是一个高效、灵活且表达力的Python数据分析库,旨在处理“关系型”或“标记化”数据,提供直观和易用的API,适合akukan实际世界的数据分析任务。 主要功能包括: - 数据清洗与处理 - 数据分析与建模 - 数据可视化与展示 - **性能优势**: - 底层算法优化,部分代码使用Cython实现,显著提升运行速度。 - 如果需要特定功能,用户也可以开发更高效的专用工具。 - **生态系统地位**: - 作为statsmodels的依赖库,Pandas在Python数据科学生态系统中占据重要地位。 - 在金融领域的生产环境中得到广泛应用。 - **学习建议**: 用户需具备NumPy基础知识,因Pandas的功能在一定程度上依赖于NumPy。 --- ### 版本更新与新功能 #### **Pandas 0.19.0 (发布日期:2016年10月2日)** - 主要更新: - 添加`merge_asof()`函数,支持时间序列的asof-style连接。 - `.rolling()`方法新增时间序列支持。 - `read_csv()`函数支持解析分类数据。 - 增加`union_categorical()`函数,用于合并分类变量。 - `PeriodIndex`类新增独特的period数据类型,取值方式与其他索引类更一致。 - 稀疏数据结构增强对`int`和`bool`数据类型的支持。 - 系列比较操作新增考虑索引的功能。 - 引入Pandas开发API,提供实用函数。 - 弃用`Panel4D`和`PanelND`类,建议使用xarray包替代。 #### **Pandas 0.18.0 (发布日期:2016年3月13日)** - 主要更新: - 滚动窗口函数(如`.rolling()`、`.ewm()`)新增为Series和DataFrame的方法,类似于`.groupby`。 - 增加`RangeIndex`类,优化内存占用。 - `.resample()`方法 API 更改,与`.groupby`更一致。 - 弃用浮点数位置索引(自0.14.0版本以来已弃用),现在会引发TypeError。 - 新增`.to_xarray()`函数,兼容xarray包。 - `read_sas`函数增强,支持读取sas7bdat文件。 - 新增`.str.extractall()`方法,优化`.str.extract()`和`.str.cat()`方法。 - 新增`pd.test()`,用于运行Nose测试。 #### **Pandas 0.14.0 (发布日期:2014年5月31日)** - 主要更新: - 官方支持Python 3.4。 - SQL接口更新为使用sqlalchemy。 - 多索引切片(Slicers)支持。 - 增强`groupby`结果的一致性和灵活性。 - 自定义节假日日历支持。 - 优化绘图功能(如hexbin、面积图和饼图)。 - IO性能文档新增。 #### **Pandas 0.15.0 (发布日期:2014年10月18日)** - 主要更新: - 停止支持NumPy < 1.7.0。 - 集成分类类型(Categorical)作为一类数据类型。 - 新增时间差类型(Timedelta)及其索引类型(TimedeltaIndex)。 - DataFrame默认显示内存占用信息。 - Series新增`.dt`属性访问日期时间数据。 - 分离索引文档为“索引与数据选择”和“多索引/高级索引”。 - 分离字符串方法文档为“文本数据处理”。 - `read_csv`默认忽略空白行。 --- ### 性能优化与生态系统地位 - **性能优化**: - Pandas通过底层算法优化和Cython实现的代码 modules 提升了运行速度。 - 对于特定功能,用户可以开发更高效的专用工具。 - **生态系统地位**: - Pandas是statsmodels的依赖库,是Python数据科学生态系统的重要组成部分。 - 广泛应用于金融领域的生产环境中。 --- ### CONTRIBUTORS 与学习资源 - **CONTRIBUTORS**: 文档列出了多位为Pandas贡献的开发者和测试者。 - **学习资源**: - 提供分章节的学习教程,涵盖数据导入/导出、数据清洗、统计分析、数据可视化等内容。 - 重点功能:`GroupBy`、`stack/unstack`、`transpose`、异常值处理等。 - 实用教程:结合实际案例介绍数据分析流程,涉及数据整理、聚合、可视化和时间序列分析。 --- ### 总结 Pandas是一个功能强大、灵活且高效的Python数据分析工具,适用于从数据清洗到分析和可视化的完整流程。其随版本更新不断优化功能和性能,是Python数据科学生态系统中不可或缺的一部分。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 1930 页请下载阅读 -
文档评分
请文明评论,理性发言.