pdf文档 Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf

9.60 MB 24 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档讨论了深度学习在视频搜索领域的应用,包括内容理解、关键词搜索和排序三个主要方面。内容理解方面涵盖了自动分类、目标检测与跟踪、视频智能封面图等方法,采用了FastText、bi-LSTM等技术,取得了显著的效果。关键词搜索部分涉及语音表征技术,如百亿级的语音模型。排序方面则提到了个性化表征,包括用户行为分析和 看视频的整个生命周期的处理。
AI总结
以下是对文档《Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf》的总结,涵盖了视频搜索的挑战、深度学习在内容理解、语音搜索和排序中的应用: ### 1. 视频搜索的挑战 视频搜索面临的主要挑战包括视频内容的复杂性、多模态数据的处理、实时性需求以及用户查询意图的多样性。 --- ### 2. 深度学习在视频内容理解中的应用——召回 深度学习在视频内容理解中的应用主要体现在以下几个方面: #### (1)自动分类技术 - **目的**:对视频进行类目和标签预测。 - **方法**:采用基于深度学习的分类算法。 - **效果**:基类目平均准确率达到84.1%,显著优于传统方法。 #### (2)行人检测 - **目的**:识别视频中感兴趣的行人并定位其时间段。 - **方法**:使用1QPvQNuVLQP算法结合SLPgNH框架。 - **效果**:在THA9OS数据集上,取得了O/P=84.1%的性能。 #### (3)多目标检测与跟踪 - **目的**:检测和跟踪视频中的特定目标。 - **方法**:采用HOG+LBP的检测框架,结合颜色模型和候选区域扩充技术进行跟踪。 - **效果**: - 检测算法在HQNNywQQG数据集上性能达到80.41%,优于基线模型。 - 跟踪算法在T0-100评测集上实现了实时速度的同时,取得了最优效果。 #### (4)视频智能封面图 - **目的**:通过结构化分析,选择视频的关键帧作为展示首图。 - **方法**:结合关键帧提取、优化以及美学评分。 - **效果**:与原始_algorithm对比,视频封面图的质量显著提升。 --- ### 3. 深度学习在语音搜索中的应用——语音表征 - **目的**:通过语音内容的表征提取,实现语音搜索的召回。 - **方法**:使用FastText Vector embedding和bi-LSTM + attention模型。 - **效果**: - 在1%的查询中,二进制Tensorflow模型召回率达到99.0%。 -uxe模型的优化使得闭区间 monuments 和 response time均有显著提升。 --- ### 4. 深度学习在排序中的应用——个性化表征 - **目的**:通过深度学习生成个性化表征,优化视频排序。 - **方法**:结合多任务学习和注意力机制,构建用户与视频的交互表征。 - **效果**: - 在多个评测集中,模型的排序效果显著优于传统方法。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 12 页请下载阅读 -
文档评分
请文明评论,理性发言.