Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf
9.60 MB
24 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档讨论了深度学习在视频搜索领域的应用,包括内容理解、关键词搜索和排序三个主要方面。内容理解方面涵盖了自动分类、目标检测与跟踪、视频智能封面图等方法,采用了FastText、bi-LSTM等技术,取得了显著的效果。关键词搜索部分涉及语音表征技术,如百亿级的语音模型。排序方面则提到了个性化表征,包括用户行为分析和 看视频的整个生命周期的处理。 | ||
AI总结 | ||
以下是对文档《Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf》的总结,涵盖了视频搜索的挑战、深度学习在内容理解、语音搜索和排序中的应用:
### 1. 视频搜索的挑战
视频搜索面临的主要挑战包括视频内容的复杂性、多模态数据的处理、实时性需求以及用户查询意图的多样性。
---
### 2. 深度学习在视频内容理解中的应用——召回
深度学习在视频内容理解中的应用主要体现在以下几个方面:
#### (1)自动分类技术
- **目的**:对视频进行类目和标签预测。
- **方法**:采用基于深度学习的分类算法。
- **效果**:基类目平均准确率达到84.1%,显著优于传统方法。
#### (2)行人检测
- **目的**:识别视频中感兴趣的行人并定位其时间段。
- **方法**:使用1QPvQNuVLQP算法结合SLPgNH框架。
- **效果**:在THA9OS数据集上,取得了O/P=84.1%的性能。
#### (3)多目标检测与跟踪
- **目的**:检测和跟踪视频中的特定目标。
- **方法**:采用HOG+LBP的检测框架,结合颜色模型和候选区域扩充技术进行跟踪。
- **效果**:
- 检测算法在HQNNywQQG数据集上性能达到80.41%,优于基线模型。
- 跟踪算法在T0-100评测集上实现了实时速度的同时,取得了最优效果。
#### (4)视频智能封面图
- **目的**:通过结构化分析,选择视频的关键帧作为展示首图。
- **方法**:结合关键帧提取、优化以及美学评分。
- **效果**:与原始_algorithm对比,视频封面图的质量显著提升。
---
### 3. 深度学习在语音搜索中的应用——语音表征
- **目的**:通过语音内容的表征提取,实现语音搜索的召回。
- **方法**:使用FastText Vector embedding和bi-LSTM + attention模型。
- **效果**:
- 在1%的查询中,二进制Tensorflow模型召回率达到99.0%。
-uxe模型的优化使得闭区间 monuments 和 response time均有显著提升。
---
### 4. 深度学习在排序中的应用——个性化表征
- **目的**:通过深度学习生成个性化表征,优化视频排序。
- **方法**:结合多任务学习和注意力机制,构建用户与视频的交互表征。
- **效果**:
- 在多个评测集中,模型的排序效果显著优于传统方法。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
12 页请下载阅读 -
文档评分