pandas: powerful Python data analysis toolkit - 0.15.1
9.10 MB
1557 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
文档介绍了pandas 0.15.1版本的功能和改进,包括数据分析工具、数据结构、DataFrame操作、时间序列处理等。此版本新增了Categorical类型、Timedelta_scalar和TimedeltaIndex,并改进了性能和API。文档还提供了教程和远程数据访问功能,支持从Yahoo! Finance、Google Finance等来源获取数据。 | ||
AI总结 | ||
《pandas: powerful Python data analysis toolkit - 0.15.1》文档总结如下:
---
### 文档概述
1. **pandas简介**
pandas是Python中一个强大的数据分析工具包,专为处理结构化数据设计,旨在简化数据清洗、分析和可视化过程。它支持多种数据操作,如频率转换、滑动窗口统计、滑动窗口线性回归、日期偏移等。
2. **核心特点**
- **高效性**:底层算法优化,部分代码用Cython实现,但过度通用可能牺牲性能。
- **生态地位**:pandas是statsmodels的依赖,且在金融领域的生产环境中广泛应用。
- **基础知识要求**:文档假设用户熟悉NumPy,建议未接触过NumPy的用户先学习NumPy。
---
### 版本更新日志
#### **pandas 0.15.1**
- **发布时间**:November 9, 2014
- **特点**:这是一个小版本,包含API更改、功能增强、性能改进和大量bug修复。
#### **pandas 0.15.0**
- **发布时间**:October 18, 2014
- **主要更新**:
- 放弃对numpy < 1.7.0的支持。
- 将Categorical类型作为一等数据类型集成到pandas中。
- 引入新的标量类型Timedelta和索引类型TimedeltaIndex。
- 默认显示DataFrame的内存占用情况。
- 新增对datetime-like数据的属性访问器.dt。
- 分离了索引和文本数据处理的文档。
- 默认忽略read_csv中空白行。
- 内部重构Index类,总体性能提升。
#### **pandas 0.14.0**
- **发布时间**:May 31, 2014
- **主要更新**:
- 官方支持Python 3.4。
- 更新SQL接口,使用sqlalchemy。
- 支持MultiIndex切片。
- 增强groupby功能,结果更一致,指定更灵活。
- 支持CustomBusinessDay中的假日日历。
- 优化绘图功能,新增hexbin、area和pie图。
- 新增I/O性能文档。
#### **pandas 0.14.1**
- **发布时间**:July 11, 2014
- **主要更新**:
- 新增select_dtypes()方法,按dtype选择列。
- 新增sem()方法,计算均值标准误。
- 支持dateutil时区。
- 新增文档【Options and Settings】。
- 修复大量bug。
---
### 学习资源
1. **基础教程**
- 包括数据导入/导出、数据选择、描述性统计、分组排序、数据转换等功能的使用教程。
- 涵盖从CSV、Excel、TXT、Microsoft SQL等多种数据源读写数据的操作。
2. **高级教程**
- 包括与Excel图表结合、使用Vincent和XlsxWriter等工具的教程。
3. **推荐资料**
- Wes McKinney(pandas创始人)的博客。
- 使用SciPy和pandas进行数据分析的教程。
- Financial analysis in Python等专题教程。
---
### 总结
pandas作为Python数据分析的核心工具包,通过高速、灵活的数据结构和多样化的功能,帮助用户高效完成数据处理和分析任务。本文档详细记录了pandas 0.15.1及其前几版本的更新内容,并提供了丰富的学习资源,适合新手和进阶用户参考。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
1550 页请下载阅读 -
文档评分