[發明專利]基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法有效
| 申請號: | 202010107288.8 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111325155B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 張祖凡;呂宗明;甘臣權;張家波 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 殘差式 cnn 多模態 特征 融合 策略 視頻 動作 識別 方法 | ||
本發明涉及一種基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法,屬于計算機視覺與深度學習領域。首先將傳統C3D網絡連接方式改為殘差式連接;采用核分解技術將3D卷積核拆解,得到一個空間卷積核,與并行的多個不同時間尺度時間核,再在空間卷積核后插入注意力模型,得到A3D殘差模塊并將其堆疊成的殘差網絡。搭建雙流動作識別模型,將RGB圖像特征和光流特征輸入到空間流網絡和時間流網絡中,并提取出多級卷積特征層特征,再利用多級特征融合策略對兩個網絡進行融合,實現時空特征互補;最后將分數級融合后的全局視頻動作描述子通過PCA降維,再用SVM分類器完成動作分類。
技術領域
本發明屬于計算機視覺與深度學習領域,涉及一種基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法。
背景技術
今天的數字內容本質上是包含了文本、音頻、圖像、視頻等等的多媒體信息。特別是圖像和視頻,隨著傳感器的盛行與移動設備的激增,通過視頻動作傳達信息作為交流的方式也逐漸流行起來,開始成為互聯網用戶之間的一種新的通信方式。為了更為深層次與智能化地去發掘與理解多媒體信息,科研領域越來越鼓勵開發先進的視頻理解技術。表征學習則是這些技術進步取得成功的基礎。近年來,卷積神經網絡(Convolutional neuralnetwork,CNN)的興起,特別是在圖像領域,深度卷積神經網絡中通過多個不同的卷積核結合局部感受野的信息抓取機制,遍歷上一層的特征平面捕獲不同粒度的局部特征,隨著層數加深,這些提取的顯著特征被組合和壓縮,不同特征層涵蓋不同層次的視覺感知特征表達,因此,憑借其對視覺表觀特征優越的學習能力,在表征學習領域得到了廣泛的認可。卷積神經網絡(CNN)取得的成功證明了卷積神經網絡具有很高的學習視覺表象的能力。例如,殘差網絡在ImageNet測試集上top-5錯誤率達到了3.57%,刷新了人類之前已知的最好識別性能。然而,視頻幀是一個時序圖像,其間較大的動態變化以及處理的復雜性,使得速度模型學習到一個強大和通用的時空表征成為了難題。
目前,主要方法是將CNN的卷積核從2D擴展到3D,并訓練出一種全新的3D CNN,通過在2D CNN的基礎上擴增一個時間維度,這樣網絡不僅可以提取出每個視頻圖像中存在的視覺外觀特征,而且可以捕獲到連續幀之間的動態信息。但是,3D卷積核給模型性能帶來提升的同時,網絡訓練中昂貴的計算成本也成為了一個待解決的問題。以一個廣泛采用的11層3DCNN,即C3D網絡為例,模型大小就達到了321MB,隨著模型參數二次方式的增加,研究3D卷積核的有效替代勢在必行。再者,當前的雙流動作識別模型中,空間流網絡與時間流網絡在最后的決策融合之前缺少交互,積聚在多個網絡層的表征能力未被充分開發,關于對如何融合雙流網絡多級特征有效實現空間特征與時間特征的互補的研究還相對較少。因此,怎樣針對C3D模型參數多訓練困難以及局限于淺層網絡表征能力的缺陷來展開研究,有效提升3D卷積神經網絡模型處理視頻動作的能力與效率,以及怎樣充分且有效實現雙流網絡融合互補,提升識別的性能,是一項非常重要的工作。
發明內容
有鑒于此,本發明的目的在于提供一種基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法。
為達到上述目的,本發明提供如下技術方案:
一種基于殘差式3D CNN和多模態特征融合策略的視頻動作識別方法,包括以下步驟:
S1:基于傳統的卷積3D神經網絡(Convolutional 3D Neural Networks,C3D),將各個卷積模塊的連接方式改為殘差式連接,引入恒等映射(Indentity mapping);
S2:在殘差模塊中,利用3D核分解技術,將原始的3D卷積核分解為空間核和多個并行的多尺度時間核(Multiscale temporal transform layers,MTTL),以減少模型參數,接著,嵌入注意力模型(Convolutional block attention module,CBAM),得到全新的殘差模塊(A3D block);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://m.szxzyx.cn/pat/books/202010107288.8/2.html,轉載請聲明來源鉆瓜專利網。





