pandas: powerful Python data analysis toolkit - 0.25
4.91 MB
698 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
文档介绍了Pandas库版本0.25.2的更新内容,包括兼容性改进、Bug修复以及新功能的添加。详细说明了GroupBy操作的改进、MultiIndex索引的处理方法以及DataFrame的基本操作。此外,文档还提供了丰富的学习资源和教程,涵盖Pandas的核心功能和高级技巧。 | ||
AI总结 | ||
以下是对文档内容的中文总结,语言简洁明了,重点突出核心观点和关键信息,逻辑连贯且易于理解:
---
**文档标题**:**pandas: powerful Python data analysis toolkit - 0.25**
---
### **1. 版本更新与新特性**
- **0.25.2 版本更新**(2019年10月15日发布):
- **主要改进**:
-新增对 Python 3.8 的兼容性(GH28147)。
- **Bug 修复**:
- **索引相关**:修复了 `DataFrame.reindex()` 和 `RangeIndex.get_indexer()` 的回归性问题。
- **I/O 操作**:修复了 `to_csv()` 在处理 `IntervalIndex` 和 `ExtensionArray` 时的错误。
- **分组/重采样/滚动操作**:修复了 `groupby.quantile()` 的 `IndexError`,以及 `shift()、bfill()` 和 `ffill()` 在时区信息处理中的问题。
- **兼容性与性能**:修复了 `DataFrame.query()` 在 Python 3.8 中的兼容性问题,并优化了 IPython 控制台的自动补全功能。
---
### **2. 数据处理与实用功能**
- **数据操作**:
- **排序与筛选**:支持通过 `nlargest()` 和 `nsmallest()` 对 DataFrame 按列或多列进行排序和筛选。
- **时间序列索引**:支持通过 MultiIndex 进行部分字符串索引,例如 `dft2.loc['2013-01-05']`。
- **布尔操作**:支持 `&`、`|`、`^` 等布尔运算符,以及 `empty`、`any()`、`all()` 等布尔减少操作。
- **数据合并**:支持 SQL 风格的合并(`pd.merge()`)和行追加(`append()`)。
- **示例**:
- 使用 `nlargest()` 和 `nsmallest()` 过滤数据:
```python
df.nlargest(3, 'a') # 返回前3行按列 'a' 排序的结果
df.nsmallest(3, 'a') # 返回后3行按列 'a' 排序的结果
```
- 使用 MultiIndex 排序和过滤:
```python
df1.sort_values(by=('a', 'two')) # 按 MultiIndex 列排序
```
---
### **3. 教程与学习资源**
- **官方教程**:
- **10 Minutes to pandas**:快速入门指南。
- **Cookbook**:高级功能的实用示例。
- **Cheat Sheet**:pandas 快捷参考手册。
- **社区贡献教程**:
- **Learn Pandas by Hernan Rojas**:新手学习路径。
- **Modern Pandas Tutorial**(作者:Tom Augspurger):涵盖 modern pandas 的关键内容,如方法链、索引、性能优化等。
- **Video 教程与案例学习**:
- **Pandas From The Ground Up**(2015)。
- **Data analysis in Python with pandas**(2016-2018)。
- **Best practices with pandas**(2018)。
- **其他资源**:
- Wes McKinney(pandas 创始人)的博客。
- 使用 pandas 进行统计分析、金融分析和时间序列分析的教程。
---
### **4. 与其他工具的对比**
- **pandas vs Stata**:pandas 的 `groupby` 可以实现 Stata 的 `bysort` 功能,例如:
```python
tips.groupby(['sex', 'smoker']).first() # 等同于 Stata 的 bysort sex smoker: list if _n == 1
```
- **内存与磁盘处理**:pandas 和 Stata 均在内存中操作,适合小数据集;对于大数据处理,可使用 `dask.dataframe` 支持磁盘操作。
---
### **5. 时间序列与数据结构**
- **时间序列功能**:
- 支持 MultiIndex 和部分字符串索引。
- 示例:创建带时间索引的 DataFrame 并进行_slice_操作。
- **数据结构**:
- DataFrame 和 Series 的基本操作,如转置(`T` 或 `transpose()`)、布尔运算和指数运算。
---
### **总结**
文档全面介绍了 pandas 0.25.3 版本的新特性和修复内容,并提供了丰富的学习资源和实用操作示例,适合新手和熟练用户快速上手并提升数据处理效率。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
691 页请下载阅读 -
文档评分