pandas: powerful Python data analysis toolkit - 0.25.0
9.62 MB
2827 页
0 下载
103 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Pandas
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档介绍了pandas 0.25.0版本的功能和更新内容,包括新增的分组聚合功能、数据结构、数据操作方法以及安装说明。pandas是一个强大的Python数据分析工具,支持多种数据类型,提供高效的数据处理和分析功能,适用于金融、统计和社会科学等多个领域。 | ||
| AI总结 | ||
### pandas 0.25.0 版本更新与功能概述
#### 1. 版本信息
- **发布日期**: 2019年7月18日
- **最低Python版本要求**: 从0.25.x系列开始,pandas仅支持Python 3.5.3及以上版本,未来版本将升级至Python 3.6。
- **重要提示**:
- Panel功能已完全移除,建议使用xarray处理N维标签数据。
- `read_pickle()` 和 `read_msgpack()` 的向后兼容性仅保证到pandas 0.20.3版本。
- 从2020年1月1日起,pandas将不再支持Python 2.7。
---
#### 2. 新功能亮点
- **群组聚合(Named Aggregation)**:
新增了“命名聚合”功能,允许在对特定列应用多个聚合函数时,自定义输出列的名称(GH18366, GH26512)。
示例:
```python
animals.groupby('kind').agg({'height': 'mean', 'weight': 'median'})
```
---
#### 3. 核心功能与数据结构
- **数据结构**:
- **Series**: 1维带标签的同构数组。
- **DataFrame**: 2维带标签的、大小可变的表格结构,支持异构数据类型。
- **DataFrame**是pandas的核心,适用于表格数据、时间序列数据、矩阵数据等多种场景。
- **关键功能**:
- **缺失值处理**: 使用`np.nan`表示缺失值,默认排除缺失值进行计算。支持`dropna()`和`fillna()`方法。
- **数据对齐**: 自动对齐索引,简化数据操作。
- **分组与聚合**: 提供灵活的`split-apply-combine`操作,支持多种聚合和转换功能。
- **重塑与透视**: 支持灵活的数据重塑和透视操作。
- **高效IO工具**: 支持CSV、Excel、数据库等多种数据格式的读写,以及快速的HDF5格式存储。
- **时间序列功能**: 包括时间范围生成、频率转换、移动窗口统计等。
---
#### 4. 安装与依赖
- **推荐安装方式**: 使用Anaconda分布,包含pandas、NumPy、SciPy等科学计算库。
- **依赖关系**: pandas基于NumPy构建,是统计计算生态中的重要组件(statsmodels的依赖项)。
---
#### 5. 教程与资源
- **入门指南**:
- 《10分钟入门pandas》:适合快速上手。
- 《pandas Cookbook》:提供真实数据集的示例代码。
- **进阶学习**:
- Modern Pandas教程:涵盖方法链、索引、性能优化等高级主题。
- pandas官方文档:详细说明功能和用法。
---
#### 6. 其他重要信息
- **性能**:
- pandas在底层使用Cython优化关键算法,性能高效。
- 通用性通常会牺牲性能,针对特定场景可开发更高效的工具。
- **社区支持**:
- 提供活跃的开发者团队和丰富的社区资源,包括GitHub、邮件列表和问答支持。
---
总结:pandas 0.25.0 版本在功能增强、性能优化和向下兼容性方面均有显著提升,是数据科学领域中强大的数据分析工具。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
2820 页请下载阅读 -
文档评分













