pdf文档 pandas: powerful Python data analysis toolkit - 0.25

4.91 MB 698 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了Pandas库版本0.25.2的更新内容,包括兼容性改进、Bug修复以及新功能的添加。详细说明了GroupBy操作的改进、MultiIndex索引的处理方法以及DataFrame的基本操作。此外,文档还提供了丰富的学习资源和教程,涵盖Pandas的核心功能和高级技巧。
AI总结
以下是对文档内容的中文总结,语言简洁明了,重点突出核心观点和关键信息,逻辑连贯且易于理解: --- **文档标题**:**pandas: powerful Python data analysis toolkit - 0.25** --- ### **1. 版本更新与新特性** - **0.25.2 版本更新**(2019年10月15日发布): - **主要改进**: -新增对 Python 3.8 的兼容性(GH28147)。 - **Bug 修复**: - **索引相关**:修复了 `DataFrame.reindex()` 和 `RangeIndex.get_indexer()` 的回归性问题。 - **I/O 操作**:修复了 `to_csv()` 在处理 `IntervalIndex` 和 `ExtensionArray` 时的错误。 - **分组/重采样/滚动操作**:修复了 `groupby.quantile()` 的 `IndexError`,以及 `shift()、bfill()` 和 `ffill()` 在时区信息处理中的问题。 - **兼容性与性能**:修复了 `DataFrame.query()` 在 Python 3.8 中的兼容性问题,并优化了 IPython 控制台的自动补全功能。 --- ### **2. 数据处理与实用功能** - **数据操作**: - **排序与筛选**:支持通过 `nlargest()` 和 `nsmallest()` 对 DataFrame 按列或多列进行排序和筛选。 - **时间序列索引**:支持通过 MultiIndex 进行部分字符串索引,例如 `dft2.loc['2013-01-05']`。 - **布尔操作**:支持 `&`、`|`、`^` 等布尔运算符,以及 `empty`、`any()`、`all()` 等布尔减少操作。 - **数据合并**:支持 SQL 风格的合并(`pd.merge()`)和行追加(`append()`)。 - **示例**: - 使用 `nlargest()` 和 `nsmallest()` 过滤数据: ```python df.nlargest(3, 'a') # 返回前3行按列 'a' 排序的结果 df.nsmallest(3, 'a') # 返回后3行按列 'a' 排序的结果 ``` - 使用 MultiIndex 排序和过滤: ```python df1.sort_values(by=('a', 'two')) # 按 MultiIndex 列排序 ``` --- ### **3. 教程与学习资源** - **官方教程**: - **10 Minutes to pandas**:快速入门指南。 - **Cookbook**:高级功能的实用示例。 - **Cheat Sheet**:pandas 快捷参考手册。 - **社区贡献教程**: - **Learn Pandas by Hernan Rojas**:新手学习路径。 - **Modern Pandas Tutorial**(作者:Tom Augspurger):涵盖 modern pandas 的关键内容,如方法链、索引、性能优化等。 - **Video 教程与案例学习**: - **Pandas From The Ground Up**(2015)。 - **Data analysis in Python with pandas**(2016-2018)。 - **Best practices with pandas**(2018)。 - **其他资源**: - Wes McKinney(pandas 创始人)的博客。 - 使用 pandas 进行统计分析、金融分析和时间序列分析的教程。 --- ### **4. 与其他工具的对比** - **pandas vs Stata**:pandas 的 `groupby` 可以实现 Stata 的 `bysort` 功能,例如: ```python tips.groupby(['sex', 'smoker']).first() # 等同于 Stata 的 bysort sex smoker: list if _n == 1 ``` - **内存与磁盘处理**:pandas 和 Stata 均在内存中操作,适合小数据集;对于大数据处理,可使用 `dask.dataframe` 支持磁盘操作。 --- ### **5. 时间序列与数据结构** - **时间序列功能**: - 支持 MultiIndex 和部分字符串索引。 - 示例:创建带时间索引的 DataFrame 并进行_slice_操作。 - **数据结构**: - DataFrame 和 Series 的基本操作,如转置(`T` 或 `transpose()`)、布尔运算和指数运算。 --- ### **总结** 文档全面介绍了 pandas 0.25.3 版本的新特性和修复内容,并提供了丰富的学习资源和实用操作示例,适合新手和熟练用户快速上手并提升数据处理效率。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 691 页请下载阅读 -
文档评分
请文明评论,理性发言.