数据实验楼 | 视频智能检索项目上线!

2024-02-01

数据实验楼视频智能检索项目正式发布,欢迎大家体验!为支持广大院校的大数据和人工智能实训教学,需要使用平台的老师请尽快与我们联系,便于我们提前准备云服务器等资源。联系电话和微信:136-9329-0406

http://idatacoding.cn/

重要提示

数据实验楼面向全国高校师生提供服务,如未加入所在院校,请先加入院校方可获得服务。

加入院校方法如下:

加入院校方法.png

如果没有院校码,请在线申请。方法如下:

点击菜单栏“申请院校码”,在弹框里填写信息。

申请方法.png

信息填写完整后提交。

提交信息.png

视频智能检索项目

实训目标

本项目利用101种不同类别的视频,结合多模态特征提取模型和向量数据库技术,构建了一个视频智能检索系统,通过输入描述文本,可以检索出对应符合文本描述的视频。通过本实训项目的练习,大家将学会视频数据的处理,包括视频读取、抽帧、合成以及指定帧播放等;了解多模态特征提取技术,包括CLIP模型的基本原理及使用;掌握ClinkHouse数据库的基本操作方法,包括数据库连接、创建数据表、数据插入和向量查询等。

实践工具

opencv-python; transformers; sentence-transformers; clickhouse

推荐实训课时:20

前置知识检测

视频智能检索项目前置1.png
视频智能检索项目前置2.png

项目介绍

本项目使用从某网站获取的101种不同类别的视频数据集构建视频智能检索系统,视频类别包括人机交互、身体活动、人际互动、乐器演奏和体育运动等。

每个类别的视频被分为25组,每组可包含4-7个视频,来自同一组的视频具有一些相似的特征,比如背景、人物等。每个视频的码率为25FPS,分辨率为320x240,格式为avi。

本项目共分为四个章节,第一个章节中进行视频数据的预处理,首先读取视频,接着将每组的4-7个小视频合成一个完整视频,再针对每个视频等距地抽出5帧,最后保存数据元信息,包括帧的id、路径、索引以及帧对应的视频id和视频路径,为后续插入数据库作准备。

第二章中进行帧表征的提取,首先了解CLIP模型的基本原理并加载模型,接着进行帧表征的提取,然后学习表征的相似度计算,最后将帧表征加入数据元信息进行存储。

第三个章节中进行元信息存储与查询,首先连接ClinkHouse数据库,接着学习ClinkHouse数据库的基本操作,包括创建数据表、插入数据、基本查询等,再创建数据元信息表并导入数据元信息,最后进行向量的查询测试。

第四个章节中进行视频的检索,首先给出一个描述文本,接着调用CLIP模型将描述文本转换为文本表征,再将文本表征作为查询向量进行数据库的向量相似度检索,返回相似的帧表征以及元信息,最后根据返回元信息中帧索引和视频id,找到对应的视频并根据帧索引定位到帧,从定位帧开始播放视频,完成视频的检索。

项目流程

视频智能检索项目项目流程.png

实训任务示例

视频智能检索项目示例1.png
视频智能检索项目示例2.png
视频智能检索项目示例3.png
视频智能检索项目示例4.png
视频智能检索项目示例5.png
助手iconChat