pandas: powerful Python data analysis toolkit - 0.19.0
12.03 MB
1937 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
pandas: powerful Python data analysis toolkit Release 0.19.0 Wes McKinney & PyData Development Team Oct 02, 2016 CONTENTS 1 What’s New 3 1.1 v0.19.0 (October 2, 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 | ||
AI总结 | ||
以下是文档内容的中文总结:
---
**文档总结:《Pandas: powerful Python data analysis toolkit - 0.19.0》**
### 文档概述
该文档主要介绍了Pandas库的功能、版本更新及相关信息,强调其作为强大的Python数据分析工具的优势。
---
### 核心功能与特性
- **Pandas简介**:
Pandas是一个高效、灵活且表达力的Python数据分析库,旨在处理“关系型”或“标记化”数据,提供直观和易用的API,适合akukan实际世界的数据分析任务。
主要功能包括:
- 数据清洗与处理
- 数据分析与建模
- 数据可视化与展示
- **性能优势**:
- 底层算法优化,部分代码使用Cython实现,显著提升运行速度。
- 如果需要特定功能,用户也可以开发更高效的专用工具。
- **生态系统地位**:
- 作为statsmodels的依赖库,Pandas在Python数据科学生态系统中占据重要地位。
- 在金融领域的生产环境中得到广泛应用。
- **学习建议**:
用户需具备NumPy基础知识,因Pandas的功能在一定程度上依赖于NumPy。
---
### 版本更新与新功能
#### **Pandas 0.19.0 (发布日期:2016年10月2日)**
- 主要更新:
- 添加`merge_asof()`函数,支持时间序列的asof-style连接。
- `.rolling()`方法新增时间序列支持。
- `read_csv()`函数支持解析分类数据。
- 增加`union_categorical()`函数,用于合并分类变量。
- `PeriodIndex`类新增独特的period数据类型,取值方式与其他索引类更一致。
- 稀疏数据结构增强对`int`和`bool`数据类型的支持。
- 系列比较操作新增考虑索引的功能。
- 引入Pandas开发API,提供实用函数。
- 弃用`Panel4D`和`PanelND`类,建议使用xarray包替代。
#### **Pandas 0.18.0 (发布日期:2016年3月13日)**
- 主要更新:
- 滚动窗口函数(如`.rolling()`、`.ewm()`)新增为Series和DataFrame的方法,类似于`.groupby`。
- 增加`RangeIndex`类,优化内存占用。
- `.resample()`方法 API 更改,与`.groupby`更一致。
- 弃用浮点数位置索引(自0.14.0版本以来已弃用),现在会引发TypeError。
- 新增`.to_xarray()`函数,兼容xarray包。
- `read_sas`函数增强,支持读取sas7bdat文件。
- 新增`.str.extractall()`方法,优化`.str.extract()`和`.str.cat()`方法。
- 新增`pd.test()`,用于运行Nose测试。
#### **Pandas 0.14.0 (发布日期:2014年5月31日)**
- 主要更新:
- 官方支持Python 3.4。
- SQL接口更新为使用sqlalchemy。
- 多索引切片(Slicers)支持。
- 增强`groupby`结果的一致性和灵活性。
- 自定义节假日日历支持。
- 优化绘图功能(如hexbin、面积图和饼图)。
- IO性能文档新增。
#### **Pandas 0.15.0 (发布日期:2014年10月18日)**
- 主要更新:
- 停止支持NumPy < 1.7.0。
- 集成分类类型(Categorical)作为一类数据类型。
- 新增时间差类型(Timedelta)及其索引类型(TimedeltaIndex)。
- DataFrame默认显示内存占用信息。
- Series新增`.dt`属性访问日期时间数据。
- 分离索引文档为“索引与数据选择”和“多索引/高级索引”。
- 分离字符串方法文档为“文本数据处理”。
- `read_csv`默认忽略空白行。
---
### 性能优化与生态系统地位
- **性能优化**:
- Pandas通过底层算法优化和Cython实现的代码 modules 提升了运行速度。
- 对于特定功能,用户可以开发更高效的专用工具。
- **生态系统地位**:
- Pandas是statsmodels的依赖库,是Python数据科学生态系统的重要组成部分。
- 广泛应用于金融领域的生产环境中。
---
### CONTRIBUTORS 与学习资源
- **CONTRIBUTORS**:
文档列出了多位为Pandas贡献的开发者和测试者。
- **学习资源**:
- 提供分章节的学习教程,涵盖数据导入/导出、数据清洗、统计分析、数据可视化等内容。
- 重点功能:`GroupBy`、`stack/unstack`、`transpose`、异常值处理等。
- 实用教程:结合实际案例介绍数据分析流程,涉及数据整理、聚合、可视化和时间序列分析。
---
### 总结
Pandas是一个功能强大、灵活且高效的Python数据分析工具,适用于从数据清洗到分析和可视化的完整流程。其随版本更新不断优化功能和性能,是Python数据科学生态系统中不可或缺的一部分。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
1930 页请下载阅读 -
文档评分