Scrapy 1.2 Documentation
                
  
              1.10 MB
             
              266 页
               
              0 评论
              
| 语言 | 格式 | 评分 | 
|---|---|---|
英语  | .pdf  | 3  | 
| 摘要 | ||
文档详细介绍了Scrapy框架的功能和配置,包括HTTP请求和响应的处理、链接提取器的使用、设置的配置以及异常处理。文档还涵盖了Scrapy的版本更新日志、常见问题解决方案以及Scrapy的设计理念。同时,文档提到了Scrapy对Python版本的支持情况、HTTP代理的使用、模拟用户登录的方法等。  | ||
| AI总结 | ||
以下是对《Scrapy 1.2 Documentation》的中文总结,语言简洁明了,重点突出核心观点和关键信息:
---
### 一、基本概念
1. **HTTP请求与响应**  
   - Scrapy使用特定类来表示HTTP请求(`Request`)和响应(`Response`)。
   - `Response`对象包含HTML内容、编码、状态码等信息。
2. **链接提取器(Link Extractors)**  
   - 提供便捷的类用于从页面中提取链接。
   - 常用于后续的爬取 작업。
3. **设置(Settings)**  
   - 通过设置参数(如`CONCURRENT_REQUESTS`、`DOWNLOAD_DELAY`)配置Scrapy。
   - 提供了多种设置选项来优化爬虫性能和行为。
4. **异常(Exceptions)**  
   - 列举了Scrapy内置的所有异常及其用途。
   - 如`DropItem`异常用于停止处理某个Item。
---
### 二、请求与响应
- 请求(`Request`)包含目标URL、发送请求的方法、 headers、cookies等信息。
- 响应(`Response`)包含服务器返回的内容、状态码、编码等信息。
---
### 三、链接提取器
- 提供了从页面中提取链接的便捷方法。
- 常用于后续的爬取工作。
---
### 四、设置
- 通过设置参数来配置Scrapy的行为。
- 常用设置包括:
  - `CONCURRENT_REQUESTS`: 并发请求数。
  - `DOWNLOAD_DELAY`: 下载延迟。
  - `COOKIES_ENABLED`: 是否启用cookies。
  - `USER_AGENT`: 用户代理。
---
### 五、异常
- 列举了Scrapy内置的所有异常及其用途:
  - `DropItem`: 由Item管道阶段抛出,用于停止处理某个Item。
  - 其他异常如`RetryException`用于处理重试逻辑。
---
### 六、常见问题解决
- **Scrapy是否支持HTTP代理?**  
  - 支持,通过`HttpProxyMiddleware`实现。
  
- **如何抓取分页数据?**  
  - 使用`meta`传递数据,详见“Passing additional data to callback functions”。
- **Scrapy在Windows上是否支持Python 3?**  
  - 目前不支持。
- **如何模拟用户登录?**  
  - 使用`FormRequest.from_response()`模拟表单提交。
---
### 七、版本更新
- **Scrapy 1.2.3**(2017-03-03):修复了Twisted版本支持问题。
- **Scrapy 1.2.2**(2016-12-06):修复了多个Bug,包括:
  -[Interrupted pipeline traceback问题。
  - robots.txt处理问题。
  - IPython shell变量问题。
- **文档更新**:新增了对`download_latency`的说明,并修复了多处拼写错误。
---
### 八、技术支撑
- **支持的Python版本**:  
  - Python 2.7 和 Python 3.3+(Windows暂不支持Python 3)。
- **灵感来源**:  
  - Scrapy从Django等项目获取灵感,以避免重复劳动。
---
以上是《Scrapy 1.2 Documentation》的核心内容总结,涵盖了基础概念、设置、异常、常见问题解决方案及版本更新等关键信息。  | ||
 P1 
 P2 
 P3 
 P4 
 P5 
 P6 
 P7 
下载文档到本地,方便使用
    
                - 可预览页数已用完,剩余
                259 页请下载阅读 -
              
文档评分 
  













          Hyperledger Fabric 1.2 Documentation