時間:2022-11-09 17:02:31
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]一篇計算機視覺技術應用探究范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
0引言
計算機視覺(ComputerVision,CV)是進入二十一世紀之后非常活躍的研究方向,隨著圖像采集設備的不斷推陳出新,視覺信息生產的爆炸式增長,機器算力的不斷提升,以及深度神經網絡模型的提出,視覺領域的圖像處理技術日新月異,所適用的領域場景在不斷拓寬,新的問題在被不斷定義。傳統(tǒng)的圖像采集設備如攝像機,監(jiān)控探頭,主要采集可見光波段的信息,形成圖像或者視頻記錄下來,其攜帶起來比較笨重,采集范圍很有限。現如今各種移動設備和專業(yè)儀器的加入,采集的信息已經拓廣至各電磁波波段,而由此也促使信息呈爆炸式增長,為計算機視覺領域算法的訓練提供了大量的可用樣本,大大降低了獲取數據的難度和成本。
另一方面,GPU(GraphicsProcessingUnit,圖形處理器)的引入,為深度學習和并行計算插上了強有力的翅膀。以往的純CPU計算,在面對諸如矩陣運算,像素塊卷積時,只能線性的一個接一個執(zhí)行加減乘除,極大地限制了吞吐速度,而GPU在誕生伊始,為了符合圖像和視頻的處理場景條件,設計上需要并行處理各個像素點或者像素塊的數學計算,因此天然帶有了上千上萬個算術邏輯單元(ArithmeticLogicUnit,ALU),對于處理互不相關獨立的數學計算非常方便,也大大加速了深度學習在計算和推理過程中經常出現的矩陣運算。由于數據和算力的充足,進入二十一世紀以后,之前幾乎被人拋棄的神經網絡模型被再次提及,進化為更大型更多層的深度神經網絡,因深度學習的泛化能力強,需要的先驗知識少,同時又能很好地利用目前大量的數據,成為了到現在為止占據主導的算法本文接下來著重于闡述當前計算機視覺在幾個領域的應用場景,并提出一些可能的拓展,對未來的邊界予以展望。
1研究進展
計算機視覺目前主流的任務有四類:分類(Clas-sification),檢測(Detection),識別(Identification),分割(Segmentation)。分類,即對一幅圖片進行一個整體的劃分,研究者關注在一個圖片中占主要部分的物體的類別。分類的范圍是圖片的粒度,常見的公開數據集比如ImageNet,MNIST都是以這樣的方式進行分類,再用于后續(xù)的訓練和測試。檢測,則是對圖像中物體進行幾何定位,以包圍框(BoundingBox)的形式,把它框定出來,用于后續(xù)的識別。識別則是準確地判斷出這個物體是什么或者是什么意思,最典型的比如人臉的重識別(Re-Identification),行人的重識別等。最后是分割,其目的比檢測更進一步,在像素級別對圖像本身進行區(qū)分,劃分出像素來自于不同的物體,以分割為基礎,后續(xù)做AR/VR互動的時候,可以讓真實世界準確的與虛擬世界進行交互,模擬現實世界的物理特性。在深度神經網絡被大范圍應用之前,計算機視覺面臨的最重要的門檻就是特征工程。顧名思義,需要找到合適的特征來對你的研究對象進行表征(比如經典的Scale-invariantfeaturetransform,SIFT和His-togramofOrientedGradient,HOG),好的特征需要對研究對象有足夠的了解才能夠獲得,比如早期的人臉識別,相關研究者通過提取出人臉上一些關鍵的部位和比例構成一個特征向量,并以此來訓練一組或者多組分類器,最終可以得到一個比較理想的人臉識別。但是在尋找合適的特征,組合合適的分類器過程當中需要大量的試錯,也需要實驗的人有很豐富的經驗,因此這種做法很難推廣到其他各個領域,每個領域都需要很多專業(yè)知識來對特征進行選取,無疑需要很高的人力成本和時間成本。深度卷積神經網絡(ConvolutionalNeuralNetworks,CNN)的引入為研究者們打開了新的大門,雖然CNN的概念早在上世紀八十年代就有被提及,但是淺層的CNN的效果并不如前面提到的特征工程+分類器的方式。直到數據和算力的具備才使得深層的CNN成為可能[1][2]。現今,業(yè)界的主流骨干架構(Backbone)以CNN為主,算法工程師們通過對經典骨干架構改造和調優(yōu),可以快速適配業(yè)務,將模型遷移到自身的垂域上去。而開發(fā)工程師則嘗試從整個模型的訓練,測試,推理等各個階段進行加速,繼續(xù)降本提效。2021年,谷歌將之前自然語言處理領域(NaturalLanguageProcessing,NLP)比較火熱的Transformer[3](變形模型)引入到計算機視覺領域,其核心是注意力模型。在該領域,研究者們致力于尋找詞與詞之間的聯系,給定一組輸入的詞匯,可以找到與其有強關聯的詞匯輸出,使得機器可以更好地理解人類的語義。而將這個技術引入到視覺領域之后[4],將一幅圖像,切割為多個方塊,每個方塊有其自有的位置信息保留,然后一并輸入到Transformer的架構中進行訓練。在這個過程當中,把這樣的一個個圖塊,看作了一個個單詞輸入,而其輸出亦可以是一個單詞或者是一組單詞,不管什么樣的訓練任務,最終都能抽象為一些“詞”的輸入,得到另一些“詞”的輸出。因為在NLP領域取得的成功,以及在CV領域的許多任務中取得了不亞于甚至超過CNN框架的準確率,Transformer目前大有取代CNN成為新的行業(yè)標桿的趨勢,正吸引著越來越多的研究者進行探索。
2技術領域應用
2.1視頻分析領域
隨著5G時代的來臨,人們獲取信息的主要方式已經從文字和圖像過渡到視頻和語音,其攜帶的信息量成倍的提升,為了能夠更好地存儲,管理以及使用這些海量視頻,視頻分析成為一個必備的手段。視頻分析主要是通過計算機視覺的技術手段,將視頻當中的內容進行分析,轉換成一些結構化,半結構化的信息。這些信息會更有利于使用數據庫進行存儲,同時幫助計算機像人類一樣去理解一個視頻。一般常見的視頻分析流程如圖1所示,首先,對一個視頻進行解封裝和解碼,得到逐幀的圖像。之后對得到的幀進行下采樣,這樣做的原因,一方面是視頻當中圖像的變化,一般不足以快到只持續(xù)幾幀,目前通過網絡傳輸的視頻的幀率在20fps到30fps,適當地采樣不會影響算法精度;另一方面,通過下采樣,也能提升系統(tǒng)的處理吞吐速度,節(jié)省成本。之后視覺算法會對幀圖像進行諸如分類,檢測,識別,分割等任務的執(zhí)行,這里主要看實際應用的需求場景以及所預計的計算成本,收益如何。經過視頻分析得到的結果主要分成兩部分:整個視頻級維度的部分和片段(clip)維度的部分。視頻級維度一般是一整個視頻給出一個或者幾個概括性的分類的結果,稱之為標簽,如“體育-足球”、“影視劇-故事劇”。標簽的存在,幫助分析者對視頻有整體的把握,實際應用場景下可以通過視頻標簽做后續(xù)的視頻歸檔,視頻推薦甚至簡單的檢索[5]。片段維度的視頻分析結果則復雜一些,每個片段結果由起止時間戳和分析結果構成,最常見的如人臉的標簽,一般需要分析出一個人臉何時出現在視頻的什么位置,這個人是誰,置信度有多少,如果無法在底庫中命中已知的人臉,也可以在整個視頻中標記出來為陌生臉X,以便進行后續(xù)的更新。再比如現在流行的直播帶貨視頻,需要分析出每個商品出現的時間段,以及展示的是什么樣的商品。有了這樣的信息,便于研究者更精準的了解視頻的內容,也可以很方便的進行視頻片段的劃分和精準投放,必要時也可以進行敏感人物,敏感場景的過濾刪減。這對于當前的各個視頻內容生產平臺而言,是很必要的手段。總的說來,視頻分析能力已經成為視頻網站,各大媒體和檔案資料部門不可或缺的管理手段,視頻分析能力的質量和效率,直接決定了其下游提供的各種服務能力和響應速度。在一個萬物信息化的時代,以此為根據,越來越多的個性化分析能力必將成為這個細分領域不可缺少的能力。而隨著生產和采集設備的多樣化,視頻分析結合多種多樣的信息輸入來提高其準確率和精度也將成為一個熱門話題。
2.2安防監(jiān)控領域
安全領域是一個老生常談的話題,而隨著科技的不斷進步,現階段對安防提出了響應更快捷,處理更智能化的要求。以校園安防為例,除了傳統(tǒng)的攝像頭布控和人工監(jiān)控之外,AI技術的引入可以大大降低人力投入的成本,同時提高識別的效率和準確率,圖2展示了當前智能安防系統(tǒng)的常見結構體系。校園安防首先需要對校園的全體師生和員工們進行人臉采集和分類標識,形成人臉底庫。在日常的監(jiān)控當中,部署在校園內外的各處的攝像頭可以對出現的活體人臉進行檢測[6],同時識別到是否有陌生人進入到校園附近的范圍,并根據事先設定的閾值進行報警。陌生人臉經由老師或者學生辨認,可以加入到人臉底庫成為可信人物或者上報到公安機關。在這個過程中,主要是使用各種目標重識別技術,如人臉重識別,行人重識別等。通過對多個攝像頭的數據綜合,可以還原目標在校園內外的行動軌跡,便于對校園突發(fā)事件進行還原。此外,行為識別、擁堵檢測也是常見的處理技術。行為識別,利用時間和空間上的數據可以檢測出一些常見的行為[7,8],如走路,跑步,摔倒,打架,抽煙等,便于安保人員和有關領導快速掌握關鍵視頻段落。而擁堵檢測,可以對框定范圍內的區(qū)域進行人頭數清點[9],一旦滿足一定的預設閾值,則會進行擁堵報警,便于安保人員進行提前到場進行人流疏散。可以說校園安防是一個計算機視覺處理技術綜合應用的典型場景,除了應用于校園,諸如公司園區(qū),工廠廠區(qū)等也正在嘗試接入這種新型的管理方式。視覺處理的算法技術應對這些場景,一般只需要進行簡便的參數調優(yōu),配置以相應的底庫數據,以及和攝像頭位置信息的互相配合,就可以達到比較好的效果。這使得大規(guī)模的推廣智能安防落地成為了可能,同時日常采集到的大量視頻和圖片數據,則可以反哺背后的算法模型,不斷提升其精度和準確率。各類園區(qū)有其實際的環(huán)境特性和工程部署難度,也需要技術人員在這個過程中不斷積累經驗,快速應對。
2.3遙感影像領域
近年來,遙感衛(wèi)星數量不斷增長,在中國,每年有超過30顆的遙感衛(wèi)星發(fā)射升空,這些遙感衛(wèi)星被廣泛用于氣象,物種資源,測繪等領域,給相關研究人員帶來了海量的多波段數據。另一方面,隨著無人機更多的民用化,商用化,大量的低空飛行器也為人們帶來了粒度更細,分辨率更高的地面視頻和圖像。豐富的影像數據和不斷發(fā)展的計算機視覺技術疊加,催生出了新一代的遙感+AI視覺技術。遙感影像的常見分析任務包含但不限于地物分類,變化檢測,路網提取等。地物分類,是對圖像上的物體進行分類,比如樓房,道路,水域,耕田等。雖然是一個分類問題,本質上是一個視覺里的分割任務,最終輸出的結果是對遙感影像里的各種語義進行著色,凸顯其邊界和范圍。有了地面物體的信息之后,既可以在時序上對比前后兩次的遙感影像,進行變化檢測[10]。也可以在空間上進行路網,水網信息的提取,獲得一個城市的“脈絡圖”。變化檢測可以被用于檢測季節(jié)的變化,自然災害帶來的變化[11],如洪澇,暴雪,地震等,以及人為帶來的變化,比如城市發(fā)展建設,退耕還林等。而路網,水網的信息提取則為把控地理空間上的信息提供了有力的幫助[12],通過對遙感影像的分析,可以大范圍,快速高效地進行路網提取,再進行從影像到地理坐標系的映射,最終可將其納入到地圖系統(tǒng)當中用于導航和提供基于地理信息的服務。以上介紹的一些任務主要集中在可見光波段,而事實上,遙感衛(wèi)星所提供的數據,覆蓋了從整個可見光波段,再到近紅外,短波紅外以及熱紅外波段,這些波段的數據,同樣拓展了更多地物分類的場景以及語義,也使得計算機視覺技術加持的遙感影像分析可以被運用到氣象預報,極端自然災害監(jiān)測,森林火險預警,資源勘探等各種領域,這降低了處理海量數據的人工參與成本,同時提高了處理能力和響應速度,并能獲得不俗的準確率和召回率。
2.4其他領域
諸如此類的視覺應用領域還有許多,常見的有醫(yī)療領域根據核磁、CT、B超影像的早期癥狀診斷;工廠流水線上根據圖像識別來判斷工件的質量,清點工件的數量;農業(yè)領域通過視覺的方式無接觸的獲取植物當前生長狀況。限于篇幅此處不一一展開陳述。可以說一般只要擁有足夠的規(guī)范數據和一個符合視覺任務的目標定義,都可以讓計算機視覺技術一展身手。
3結束語
本文主要介紹了當前的計算機視覺圖像處理技術在視頻分析,安防監(jiān)控以及遙感影像分析等幾個領域的應用場景。對于其帶來的降低人工處理分析成本,同時提高處理效率的能力給予了肯定,也探討了其可能的邊界拓展并展望了其在未來的價值。可以說,目前的計算機視覺發(fā)展重點已經從基礎能力的構建逐漸過渡到細分垂直領域的探索了,雖然近年來有像Google提出的Transformer模型逐漸進入到視覺領域,但是就目前看來,其本身的提升效果和幅度依然不夠明顯,泛化效果不如卷積神經網絡,性價比在工業(yè)界還達不到讓大家為此去重新設計底層部署邏輯與推理加速框架的地步。另一方面,計算機視覺本身的能力越來越成為一個基礎的模塊被集成在某個領域的大系統(tǒng)當中去發(fā)揮具體的作用,由于理論和工程能力的不斷成熟,其應用門檻也在不斷降低,正逐漸成為一個普惠的技術存在。正因為如此,當下研究的方向如果單純從提高模型的準確率和召回率的角度出發(fā),實際的應用價值比較低,也難以很快大范圍地推廣。更多時候帶來最終表現提升的往往是大量優(yōu)質的數據和處理數據的方式方法。作為一門偏技術性的學科,擁有一些工程和實踐思維在目前來說更為重要,從降低使用成本,提升訓練和推理的效率,提高泛化能力,降低應用門檻和操作難度等這些角度去定義問題將更有實際意義。接下來的應用研究方向,將是朝著更便捷的部署,更快的響應速度,更廣闊的適用范圍,更靈活的自定義配置去落地實施。
參考文獻(References):
[1]張珂,馮曉晗,郭玉榮,等.圖像分類的深度卷積神經網絡模型綜述[J].中國圖象圖形學報,2021,26(10):2305-2325
[2]張順,龔怡宏,王進軍.深度卷積神經網絡的發(fā)展及其在計算機視覺領域的應用[J].計算機學報,2019,42(3):453-482
[3]DevlinJ,ChangM,LeeK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnder-standing[A].Proceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnolo-gies[C].Minneapolis,Minnesota:AssociationforCom-putationalLinguistics,2019,1:4171-4186
[4]DosovitskiyA,BeyerL,KolesnikovA,etal.AnImageisWorth16x16Words:TransformersforImageRecognitionatScale[A].InternationalConferenceonLearningRepresentations[C].LaJolla,California:ICLR,2021,https://iclr.cc/virtual/2021/poster/3013
[5]YuR,GongY,HeX,etal.PersonalizedAdaptiveMetaLearningforCold-startUserPreferencePrediction[A].ProceedingsoftheAAAIConferenceonArtificialIntelligence[C].Online:AAAI,2021,35(12):10772-10780
[6]潘惠蘋.人臉活體檢測技術在校園智能安防的應用綜述[J].計算機時代,2021(9):14-17
作者:王錦凱 宋錫瑾 單位:阿里巴巴(杭州)