(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211230036.X
(22)申请日 2022.10.08
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 毛钰 郑博仑 颜成钢 孙垚棋
高宇涵
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱月芬
(51)Int.Cl.
G06T 7/00(2017.01)
G06V 10/44(2022.01)
G06V 10/82(2022.01)
G06V 10/98(2022.01)G06V 20/40(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于新型时序特征关系映射的视频质
量评价方法
(57)摘要
本发明公开了一种基于新型时序特征关系
映射的视频质量评价方法。 本发 明使用预训练的
特征提取网络提取帧级别的特征, 再利用Bi ‑
LSTM网络捕捉视频序列上下文信息的内容感知
特征与帧级质量的长期依赖关系, 结合该网络输
出的隐藏状态与预训练的特征提取网络提取到
的帧级别的特征构建了一种新型时序特征关系
图, 充分利用了视频序列相邻帧以及间隔帧之间
的长短期时序关系。 本发明利用双向长短期记忆
神经网络进行时序建模在时间维度上更为有效
地融合了视频序列的内容 感知特征, 同时构建的
新型时序特征关系图也更有效地捕捉视频在短
期内的时序信息变化, 为后序质量预测任务的展
开提供了丰富的时序信息 。
权利要求书3页 说明书8页 附图1页
CN 115511858 A
2022.12.23
CN 115511858 A
1.一种基于新型时序特 征关系映射的视频质量评价方法, 其特 征在于包括如下步骤:
步骤1.提取内容感知特 征;
步骤2.时序特 征融合:
步骤3.质量回归,
步骤4.质量池化;
步骤5.将内容感知特性提取网络、 时序特征融合模块、 质量回归模块、 质量池化模型进
行联合训练。
2.根据权利要求1所述的一种基于新型时序特征关系映射的视频质量评价方法, 其特
征在于步骤1具体实现如下:
利用预训练的卷积神经网络作为内容感知特征提取网络, 所述的内容感知特征提取网
络包括一个预训练好的ResNet ‑50模型、 一个空间全局平均池化层和一个全局标准差池化
层;
1‑1.获取内容感知特征提取网络的输入, 以一个视频的所有帧作为卷积神经网络
ResNet‑50的输入, 提取每帧视频的特 征, 并输出N个特 征图Mt, 具体如下:
Mt=CNN(It) (1)
其中, t是下标, t=1,2,3, ...N, N为视频的总帧数; It表示视频第t帧的图像; Mt表示视
频第t帧所对应的特 征图;
1‑2.利用空间池化操作保留更多有效信 息: 具体来说是利用全局平均池化操作来去掉
不同帧之间的冗余信息, 利用全局标准差池化操作来保存不同帧之间的变化信息, 分别得
到特征向量
和
最终通过将特征 向量
和
聚合形成内容感知特征ft, 具体
计算如下:
其中, GPmean()表示空间全局池化操作, GPstd()表示全局标准层操作,
和
分别
是经过全局池化和全局平均差操作得到的特征向量,
表示将两个向量连接起来, ft表示
提取到单帧视频的最终内容感知特 征。
3.根据权利要求2所述的一种基于新型时序特征关系映射的视频质量评价方法, 其特
征在于步骤2具体实现如下:
将提取到的帧级别的内容感知特征ft接入双向长短期记忆神经网络中, 再利用该网络
的输出特征, 以连续五帧视频特征为一个 分组, 构建一个全新的融合视频当前帧、 前两帧以
及后两帧特 征的映射。
4.根据权利要求3所述的一种基于新型时序特征关系映射的视频质量评价方法, 其特
征在于新的特 征映射图具体实现如下:
2‑1.先将提取到的单个内容感知特征ft接入一个全连接层, 进行降维, 得到新的特征向
量Xt, 具体如下:
Xt=Wfxft+bfx (5)权 利 要 求 书 1/3 页
2
CN 115511858 A
2其中, bfx、 Wfx分别表示单个全连接层中的参数偏差和权重, ft表示提取到单帧视频的最
终内容感知特 征;
2‑2.将得到的帧级别的特征向量Xt接入Bi‑LSTM网络, 捕捉视 频序列上下文信息的内容
感知特征与帧级质量的长期依赖 关系; 单层网络单元的 隐含尺寸设为128, 卷积核为 1×1×
128, 双向长短期网络的隐含状态初始值设为H0, 根据当前时刻的输入特征向量Xt和前一时
刻网络的隐含状态H(t‑1)计算当前时刻 双向长短期网络的隐含状态Ht; 具体如下:
其中, Xt表示视频帧级别的特征向量, A和A'是Bi ‑LSTM的两个网络单元,
表示双向长
短期网络的单向网络A的当前隐含状态,
表示该网络前一时刻的隐含状态;
表示双
向长短期网络的单向网络A'当前的隐含状态,
表示A'前一时刻的隐含状态;
2‑3.利用双向长短期记 忆网络的输出 结果构建新的时序特 征映射;
以五帧为一个 分组, 划分出
个特征分组, 每一组以该分组包含的连续五帧特
征向量Xt以及对应双向长短期网络的隐含状态作为目标元素, 构建一个5 ×5的时序特征映
射矩阵;
2‑4.对生成的每一组时序特 征映射矩阵进行 特征聚合。
5.根据权利要求4所述的一种基于新型时序特征关系映射的视频质量评价方法, 其特
征在于所述时序特 征映射矩阵构建的具体步骤如下:
输入: 视频帧级别的特 征Xt, 双向长短期网络的隐含状态
和
输出: n个5 ×5维的特征映射矩阵;
①将视频帧级别特 征Xt集中划分为 n个分组;
②构建n个5 ×5维的特征映射矩阵, 即矩阵的行 数i=5, 列数j=5;
将视频帧级别特征Xt集中划分为n个分组, 构造每个分组中包含的特征映射矩阵, 进入
以下循环;
1)第一行 元素为当前分组包 含的连续5帧视频帧级别特 征, 即
I1j=Xj
2)从矩阵的第二行开始, 将引入双向长短期网络的隐含状态
和
相应位置元素的
表示可由以下循环过程选出:权 利 要 求 书 2/3 页
3
CN 115511858 A
3
专利 一种基于新型时序特征关系映射的视频质量评价方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:37:26上传分享