搜索

pdf文档 pandas: powerful Python data analysis toolkit - 0.25.0

9.62 MB 2827 页 0 下载 103 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了pandas 0.25.0版本的功能和更新内容,包括新增的分组聚合功能、数据结构、数据操作方法以及安装说明。pandas是一个强大的Python数据分析工具,支持多种数据类型,提供高效的数据处理和分析功能,适用于金融、统计和社会科学等多个领域。
AI总结
### pandas 0.25.0 版本更新与功能概述 #### 1. 版本信息 - **发布日期**: 2019年7月18日 - **最低Python版本要求**: 从0.25.x系列开始,pandas仅支持Python 3.5.3及以上版本,未来版本将升级至Python 3.6。 - **重要提示**: - Panel功能已完全移除,建议使用xarray处理N维标签数据。 - `read_pickle()` 和 `read_msgpack()` 的向后兼容性仅保证到pandas 0.20.3版本。 - 从2020年1月1日起,pandas将不再支持Python 2.7。 --- #### 2. 新功能亮点 - **群组聚合(Named Aggregation)**: 新增了“命名聚合”功能,允许在对特定列应用多个聚合函数时,自定义输出列的名称(GH18366, GH26512)。 示例: ```python animals.groupby('kind').agg({'height': 'mean', 'weight': 'median'}) ``` --- #### 3. 核心功能与数据结构 - **数据结构**: - **Series**: 1维带标签的同构数组。 - **DataFrame**: 2维带标签的、大小可变的表格结构,支持异构数据类型。 - **DataFrame**是pandas的核心,适用于表格数据、时间序列数据、矩阵数据等多种场景。 - **关键功能**: - **缺失值处理**: 使用`np.nan`表示缺失值,默认排除缺失值进行计算。支持`dropna()`和`fillna()`方法。 - **数据对齐**: 自动对齐索引,简化数据操作。 - **分组与聚合**: 提供灵活的`split-apply-combine`操作,支持多种聚合和转换功能。 - **重塑与透视**: 支持灵活的数据重塑和透视操作。 - **高效IO工具**: 支持CSV、Excel、数据库等多种数据格式的读写,以及快速的HDF5格式存储。 - **时间序列功能**: 包括时间范围生成、频率转换、移动窗口统计等。 --- #### 4. 安装与依赖 - **推荐安装方式**: 使用Anaconda分布,包含pandas、NumPy、SciPy等科学计算库。 - **依赖关系**: pandas基于NumPy构建,是统计计算生态中的重要组件(statsmodels的依赖项)。 --- #### 5. 教程与资源 - **入门指南**: - 《10分钟入门pandas》:适合快速上手。 - 《pandas Cookbook》:提供真实数据集的示例代码。 - **进阶学习**: - Modern Pandas教程:涵盖方法链、索引、性能优化等高级主题。 - pandas官方文档:详细说明功能和用法。 --- #### 6. 其他重要信息 - **性能**: - pandas在底层使用Cython优化关键算法,性能高效。 - 通用性通常会牺牲性能,针对特定场景可开发更高效的工具。 - **社区支持**: - 提供活跃的开发者团队和丰富的社区资源,包括GitHub、邮件列表和问答支持。 --- 总结:pandas 0.25.0 版本在功能增强、性能优化和向下兼容性方面均有显著提升,是数据科学领域中强大的数据分析工具。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 2820 页请下载阅读 -
文档评分
请文明评论,理性发言.