麻豆AV无码精品一区二区_草草CCYY免费看片线路_灌满抽搐合不拢bl总受_男男高H啪肉Np文多攻多一受

編碼器_傳感器_讀碼器_機器視覺 - 西安德伍拓自動化傳動系統(tǒng)有限公司
首頁 資訊百科 科技前沿

GAITC 2021 馬思偉:人工智能技術推動智能編碼的發(fā)展

編輯:小伍    發(fā)布時間:2022-04-20 14:09:35

摘要:馬思偉認為,智能編碼主要面向視覺內容內容分析和理解,采用基于特征或語義的編碼方法。當下數據驅動、算力提升,都在推動智能編碼的快速發(fā)展。從對象模型編碼、到知識、語義模型模型編碼,再到現在的深度學習編碼,智能編碼的發(fā)展始終與人工智能技術的發(fā)展密切相關。
GAITC 2021 馬思偉:人工智能技術推動智能編碼的發(fā)展

6月6日,由中國人工智能學會(以下簡稱CAAI)主辦,新浪新聞聯合中國傳媒大學共同承辦的2021全球人工智能技術大會(GAITC 2021)“發(fā)展與挑戰(zhàn)”專題論壇在杭州舉行。北京大學教授、國家杰青獲得者馬思偉先生在本次專題論壇上,與來自業(yè)界、學術界的嘉賓們分享了關于《智能圖像編碼》的研究。

GAITC 2021 馬思偉:人工智能技術推動智能編碼的發(fā)展
馬思偉作主題演講。

馬思偉認為,智能編碼主要面向視覺內容內容分析和理解,采用基于特征或語義的編碼方法。當下數據驅動、算力提升,都在推動智能編碼的快速發(fā)展。從對象模型編碼、到知識、語義模型模型編碼,再到現在的深度學習編碼,智能編碼的發(fā)展始終與人工智能技術的發(fā)展密切相關。

以下為馬思偉演講實錄,內容經編輯略有刪減:

非常高興有機會來這兒匯報自己的工作。圖像編碼可以說是一個老技術問題,實際上編碼從數字圖像誕生時就開始了,這個是計算機上的第一幅圖像,圖像分辨率是176×176×1bit,一個像素要么是黑,要么是白。

中間這幅圖像被稱為JPEG的守護神,圖像壓縮或圖像處理的應該都知道,這時的圖像分辨率是512×512,1972年的掃描儀只能掃描這個分辨率。后面這幅圖像就是今天說的比較多的4K、8K超高清分辨率的圖像。在8K分辨率圖像上我們可以看清狗的毛發(fā),一根一根的精細了。8K分辨率即7680×4320,位寬是10bit,這個數據量跟1957年比是一萬多倍。

即便是和70年代的圖像相比,數據量增長也是近200倍,可以說分辨率提升帶來巨量的數據量增加。圖像采集是更精細準確的記錄時空信息,圖像編碼則是為了降低數據量的儲存帶寬。智能編碼一方面是提高壓縮效率,另一方面是支持更方便、更智能的圖像處理。

最早熟知的圖像編碼技術是JPEG,現在數碼相機都還一直在使用。JPEG是1988年開始啟動,1992年成為標準,到現在接近30年,后來還有JPEG2000,性能比JPEG提升接近30%。由于技術專利問題并沒有獲得廣泛使用,我們看到很多技術是成功的,但實際成功應用是受很多因素影響的。后來雖然圖像編碼標準聽說的少些,但這些視頻編碼標準的幀內編碼也通常用于圖像編碼,像h.264這代標準是2003年制定的,h.265/HEVC是2013年制定的,BPG圖像就是基于h.265編碼技術。最新的就是h.266了,是2020年制定完成的,像HEIF圖像就是基于H.266的。對圖像壓縮來講,從1992年開始,近30年壓縮效率提升還不到兩倍。剛剛提到數據量是上百倍的增長,所以可以說壓縮技術很難,編碼壓縮是很有需求的。

編碼的難題是什么?這個是現在的編碼技術的通用手段,一個是預測這塊降低數據的空間冗余,還有從空域變換到頻域進行信號的分解去掉高頻信息。目前提高編碼效率是用很多的變換核,很多的預測技術手段綜合起來去選一個最優(yōu)的,選優(yōu)的過程是很復雜的,通?;诼适д鎯?yōu)化理論進行決策選定編碼參數,這種優(yōu)化編碼是比較有限的,采用一些簡單的線性預測或者線性變換很難達到最優(yōu)的編碼效果,因為實際的數據情況太多太復雜了。

所以就有了現在做的比較多的非線性預測、變換編碼技術,也就是現在講的比較多的神經網絡編碼、深度學習編碼,可以通過更復雜的非線性預測變換,降低數據冗余度,這是一個新的研究方向。簡單講下深度學習神經網絡做預測編碼,我們傳統(tǒng)編碼里面通常取幾個像素做加權預測,一般是固定幾套濾波器,從中選擇一種,但實際信號組合情況太復雜了,很難依靠幾套簡單的濾波器解決這個問題,相比之下神經網絡可以做更復雜的優(yōu)化預測。通常在編碼里面我們都很喜歡0.5這個數,0.5很簡單,運算時就是(A+B)÷2,我們也知道這個0.5肯定不是最優(yōu)的,但到底是0.1、0.2、0.7、0.8,一下子多了更多選擇之后,優(yōu)化就變的很難解決了,所以通過神經網絡去求解更復雜的優(yōu)化編碼問題,能夠對底層的信號特征處理更好,提高編碼效率,這個是深度學習編碼工作的背后機理。

基于神經網絡做優(yōu)化編碼主要是兩方面的問題,一方面是盡量少的去編碼信息,編碼較少的元素,比如神經網絡輸出的特征盡量少,這樣降低碼率比較直觀,比如編8個數比編1個數考慮的情況要多的多,還有本身這個編碼元素的信息熵要低,這個是基本優(yōu)化的思想。

基于這些優(yōu)化思想現在可以看到基于神經網絡編圖像性能提升,這些工作是在2016年,這個時候性能超過JPEG2000,2018年性能超過了h.265編碼。最后面的就是2020年的結果,它這個性能超過最新的VVC。前面說過編碼是個很有難度的問題,30年編碼效率只提升了一倍多?,F在這些基于神經網絡編碼的方法比前面積累了幾十年的工作效果都好,但也有問題,神經網絡編碼數據的依賴性還有復雜度目前還是比較大的問題。

前面我們看到用深度學習去解決更復雜的優(yōu)化編碼問題,是可以提升編碼性能的?,F在還有另外一個變化,原來傳統(tǒng)編碼為了追求壓縮效率提升,主要是面向人觀看的影視節(jié)目,包括我們手機上刷的視頻,都是人去看它。

對于這類視頻做編碼的目的是為了節(jié)省存儲空間和帶寬,但是現在越來越多的視頻不只是人去觀看,而是越來越多的機器都要對這些視頻和圖像分析處理,這是傳統(tǒng)編碼并沒有太多考慮的。所以提出智能編碼,采用基于語義或者是特征的編碼手段,能夠更好地面向內容分析與理解。

原來的圖像視頻是由機器記錄之后呈現給我們人看,是人和機器之間的一種交互形式。機器之前或者人機之間,可以有有更高級的通信方式,比如像神經脈沖,不一定就是圖像視頻。

傳統(tǒng)編碼和智能編碼在數據獲取以及表示處理的時候有很大的差別,首先傳統(tǒng)編碼的對象,就是圖像視頻,它都是基于CCD、CMOS陣列刷新,對像素塊進行處理編碼。后續(xù)基于圖像視頻的分析理解,目前基本都是基于深度學習的算法,有些方面比人做的都好了,與人的視覺系統(tǒng)相比效率還比較低。比如讓機器看了很多貓,后來一個貓它認成了狗,這是普遍存在的問題。對小孩子來說,給他看兩三只貓認出來的還是貓。

對人類視覺系統(tǒng)的研究也有很多,比如很早就有許多很基礎的理論研究,基本上我們編碼里面用到的比較多的理論一個是多通道,即對色彩、對比敏感度等的多通道處理。還有就是非線性,非線性可以更好對圖像視頻內容實現更好的表示,這是背后的機理。

我們現在對比下傳統(tǒng)編碼和智能編碼,傳統(tǒng)編碼都是基于像素塊的處理,對像素塊做預測變換編碼,處理的時候我們不知道里面是什么,都是一樣的,無非就是說數據有的是方差大一點或者是小一點,都是信號層面的底層特征。我們人看內容是從邊緣結構特征入手,再到輪廓、對象,它是這樣一個信息處理模式。人看東西實際上也是一個編碼過程,可以看到面向理解的編碼和信號保證的編碼之間差別是很大的。

那么是不是可以從更多利用特征層面進行編碼呢?也就是說的智能編碼。智能編碼概念其實并不是現在才有的,也有20多年了,只不過它的進展一直沒有達到我們所要的智能。比如早些年提得比較多的基于模型的編碼,對圖像的內容進行區(qū)域分割和編碼。MPEG-4提出了基于對象的編碼,但是它依賴對象的很精細的分割,為了實現對象交互。現在我們回頭思考下如果想要實現內容的分析理解,需要準確的分割嗎?不需要,只要對象的特征就足夠了。后來還有基于知識和語義的編碼,大概是在80年代末期到90年代中期,再后來就提出了綜合信號和視覺系統(tǒng)的智能編碼。其實還有很多工作是與智能編碼密切相關的,如MPEG-7中定義的視覺對象的描述,以及CDVS、CDVA,通過在圖像、視頻上附加上一些特征信息,可以基于特征進行圖像檢索,不需要再處理原始的圖像。近期還有一個稱為面向機器視覺的編碼叫video coding for machine,簡稱VCM,也是面向機器進行分析和處理的編碼。

下面我們在深入了解下深度學習編碼和特征編碼之間的關系。對于像素層面的編碼進行DCT變換,變換分解成不同信號進行編碼,這是很底層的特征。再高層些的特征是邊緣輪廓,也可以通過學習得到,可以模擬人一樣對視覺信息的處理。到高層這里我們看到類似于人臉的特征。由此可見基于深度學習的編碼,實際上包含了很多視覺特征特征信息在里面。

這里我們提出了一個視覺信息分層的編碼框架。一個是結構層面,比如輪廓信息,還有紋理層,就是顏色等信息,還有是語義層,最后是殘差信號層。基于這些層次信息的融合表示實現智能編碼,用相應的特征去做更多的智能處理。

這是一個具體實現的網絡框架,有時特征的數據量也很大,這部分負責去除語義冗余降低碼率,后面這里是解碼重建過程。對這種編碼方法,我們在一些大規(guī)模的圖像數據集上進行了測試。

首先在編碼效率方面,和VVC比在同等視覺視覺量下,壓縮效率差不多可以提高到2-3倍。剛才說了智能編碼不只是為了提升壓縮效率,還在內容分析方面具有優(yōu)勢。

這個工作是訓練網絡的時候不只是面向壓縮,同時面向圖像分割、人臉屬性預測這些分析識別任務,網絡編碼提取的特征信息在達到壓縮的同時可以同時支撐分析識別任務,不需要解碼圖像重建,不需要回到像素層次。

通過視覺信息分層編碼還可以做一些其他有意思的工作。像這里圖像結構和紋理分開了,可以把一幅圖像的輪廓信息和另一幅圖像的色彩信息做組合,能夠很快變化出更多的圖像內容甚至其他東西來,這些工作類似于圖像風格化,但這里主要是講定義了底層的數據表示,可以基于這一表示去進行更多的處理。

還有一個是我們現在在做的工作,打通智能編碼和更多智能處理之間的聯系。一個是視頻的生成,可以用一副圖像生成一段視頻出來,還有一種是做圖像之間的變化效果,目前都還在進行中。

最后,談談智能編碼的未來趨向,最頂層是編碼的理論基礎,包括信息論、視覺表示理論等,我想人的視覺系統(tǒng)是很好的編碼器,這個是有相應的生理智能基礎的,中間是早期的感知機編碼,其實一開始神經網絡剛出來的既有很多的編碼工作,人看東西的過程也是編碼。后面到模型編碼,再后面是深度學習編碼,包括最近概念壓縮、生成壓縮等工作。從這里我們可以看到數據驅動、算力提升,推動了智能編碼的發(fā)展。智能編碼不是新東西,是在更多的計算資源、人工智能技術發(fā)展下有了更新的進展,這里也體現了從對象到內容、越來越語義化的螺旋式發(fā)展。

與傳統(tǒng)編碼定義編解碼方法達到壓縮的目的類似,智能編碼的目標是定義更高效的數據表示形式,為更智能的數字媒體處理提供高層級的接口,我想這是智能媒體編碼未來的工作方向。

上一篇: 打樁機采用編碼器監(jiān)測自由落體位置
下一篇: 沒有了
編碼器傳感器機器視覺非標設備
阜南县| 普兰店市| 南投市| 蚌埠市| 庆阳市| 新余市| 潢川县| 大石桥市| 松滋市| 会宁县| 新野县| 乌苏市| 灌阳县| 南澳县| 南澳县| 晋宁县| 文登市| 遂溪县| 仪征市| 南丰县| 武穴市| 英吉沙县| 湘潭市| 常山县| 镇宁| 巧家县| 长兴县| 澄城县| 永和县| 郯城县| 荆门市| 德钦县| 甘谷县| 浙江省| 靖江市| 泾川县| 宜章县| 英吉沙县| 富阳市| 颍上县| 吉木乃县|