pdf文档 pandas: powerful Python data analysis toolkit - 0.15.1

9.10 MB 1557 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了pandas 0.15.1版本的功能和改进,包括数据分析工具、数据结构、DataFrame操作、时间序列处理等。此版本新增了Categorical类型、Timedelta_scalar和TimedeltaIndex,并改进了性能和API。文档还提供了教程和远程数据访问功能,支持从Yahoo! Finance、Google Finance等来源获取数据。
AI总结
《pandas: powerful Python data analysis toolkit - 0.15.1》文档总结如下: --- ### 文档概述 1. **pandas简介** pandas是Python中一个强大的数据分析工具包,专为处理结构化数据设计,旨在简化数据清洗、分析和可视化过程。它支持多种数据操作,如频率转换、滑动窗口统计、滑动窗口线性回归、日期偏移等。 2. **核心特点** - **高效性**:底层算法优化,部分代码用Cython实现,但过度通用可能牺牲性能。 - **生态地位**:pandas是statsmodels的依赖,且在金融领域的生产环境中广泛应用。 - **基础知识要求**:文档假设用户熟悉NumPy,建议未接触过NumPy的用户先学习NumPy。 --- ### 版本更新日志 #### **pandas 0.15.1** - **发布时间**:November 9, 2014 - **特点**:这是一个小版本,包含API更改、功能增强、性能改进和大量bug修复。 #### **pandas 0.15.0** - **发布时间**:October 18, 2014 - **主要更新**: - 放弃对numpy < 1.7.0的支持。 - 将Categorical类型作为一等数据类型集成到pandas中。 - 引入新的标量类型Timedelta和索引类型TimedeltaIndex。 - 默认显示DataFrame的内存占用情况。 - 新增对datetime-like数据的属性访问器.dt。 - 分离了索引和文本数据处理的文档。 - 默认忽略read_csv中空白行。 - 内部重构Index类,总体性能提升。 #### **pandas 0.14.0** - **发布时间**:May 31, 2014 - **主要更新**: - 官方支持Python 3.4。 - 更新SQL接口,使用sqlalchemy。 - 支持MultiIndex切片。 - 增强groupby功能,结果更一致,指定更灵活。 - 支持CustomBusinessDay中的假日日历。 - 优化绘图功能,新增hexbin、area和pie图。 - 新增I/O性能文档。 #### **pandas 0.14.1** - **发布时间**:July 11, 2014 - **主要更新**: - 新增select_dtypes()方法,按dtype选择列。 - 新增sem()方法,计算均值标准误。 - 支持dateutil时区。 - 新增文档【Options and Settings】。 - 修复大量bug。 --- ### 学习资源 1. **基础教程** - 包括数据导入/导出、数据选择、描述性统计、分组排序、数据转换等功能的使用教程。 - 涵盖从CSV、Excel、TXT、Microsoft SQL等多种数据源读写数据的操作。 2. **高级教程** - 包括与Excel图表结合、使用Vincent和XlsxWriter等工具的教程。 3. **推荐资料** - Wes McKinney(pandas创始人)的博客。 - 使用SciPy和pandas进行数据分析的教程。 - Financial analysis in Python等专题教程。 --- ### 总结 pandas作为Python数据分析的核心工具包,通过高速、灵活的数据结构和多样化的功能,帮助用户高效完成数据处理和分析任务。本文档详细记录了pandas 0.15.1及其前几版本的更新内容,并提供了丰富的学习资源,适合新手和进阶用户参考。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 1550 页请下载阅读 -
文档评分
请文明评论,理性发言.