Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf
                
  
              9.60 MB
             
              24 页
               
              0 评论
              
| 语言 | 格式 | 评分 | 
|---|---|---|
中文(简体)  | .pdf  | 3  | 
| 摘要 | ||
文档讨论了深度学习在视频搜索领域的应用,包括内容理解、关键词搜索和排序三个主要方面。内容理解方面涵盖了自动分类、目标检测与跟踪、视频智能封面图等方法,采用了FastText、bi-LSTM等技术,取得了显著的效果。关键词搜索部分涉及语音表征技术,如百亿级的语音模型。排序方面则提到了个性化表征,包括用户行为分析和 看视频的整个生命周期的处理。  | ||
| AI总结 | ||
以下是对文档《Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf》的总结,涵盖了视频搜索的挑战、深度学习在内容理解、语音搜索和排序中的应用:
### 1. 视频搜索的挑战
视频搜索面临的主要挑战包括视频内容的复杂性、多模态数据的处理、实时性需求以及用户查询意图的多样性。
---
### 2. 深度学习在视频内容理解中的应用——召回
深度学习在视频内容理解中的应用主要体现在以下几个方面:
#### (1)自动分类技术
- **目的**:对视频进行类目和标签预测。
- **方法**:采用基于深度学习的分类算法。
- **效果**:基类目平均准确率达到84.1%,显著优于传统方法。
#### (2)行人检测
- **目的**:识别视频中感兴趣的行人并定位其时间段。
- **方法**:使用1QPvQNuVLQP算法结合SLPgNH框架。
- **效果**:在THA9OS数据集上,取得了O/P=84.1%的性能。
#### (3)多目标检测与跟踪
- **目的**:检测和跟踪视频中的特定目标。
- **方法**:采用HOG+LBP的检测框架,结合颜色模型和候选区域扩充技术进行跟踪。
- **效果**:
  - 检测算法在HQNNywQQG数据集上性能达到80.41%,优于基线模型。
  - 跟踪算法在T0-100评测集上实现了实时速度的同时,取得了最优效果。
#### (4)视频智能封面图
- **目的**:通过结构化分析,选择视频的关键帧作为展示首图。
- **方法**:结合关键帧提取、优化以及美学评分。
- **效果**:与原始_algorithm对比,视频封面图的质量显著提升。
---
### 3. 深度学习在语音搜索中的应用——语音表征
- **目的**:通过语音内容的表征提取,实现语音搜索的召回。
- **方法**:使用FastText Vector embedding和bi-LSTM + attention模型。
- **效果**:
  - 在1%的查询中,二进制Tensorflow模型召回率达到99.0%。
  -uxe模型的优化使得闭区间 monuments 和 response time均有显著提升。
---
### 4. 深度学习在排序中的应用——个性化表征
- **目的**:通过深度学习生成个性化表征,优化视频排序。
- **方法**:结合多任务学习和注意力机制,构建用户与视频的交互表征。
- **效果**:
  - 在多个评测集中,模型的排序效果显著优于传统方法。  | ||
 P1 
 P2 
 P3 
 P4 
 P5 
 P6 
 P7 
 P8 
 P9 
 P10 
 P11 
 P12 
下载文档到本地,方便使用
    
                - 可预览页数已用完,剩余
                12 页请下载阅读 -
              
文档评分 
  












