中国人熟女HDFREEHDXⅩ

<listing id="3xzpl"></listing>
<var id="3xzpl"></var><var id="3xzpl"></var><cite id="3xzpl"><video id="3xzpl"></video></cite>
<var id="3xzpl"></var>
<menuitem id="3xzpl"></menuitem>
<var id="3xzpl"><strike id="3xzpl"><listing id="3xzpl"></listing></strike></var>
<var id="3xzpl"><video id="3xzpl"></video></var><cite id="3xzpl"><video id="3xzpl"><menuitem id="3xzpl"></menuitem></video></cite>
<var id="3xzpl"><video id="3xzpl"></video></var>
<var id="3xzpl"><strike id="3xzpl"><listing id="3xzpl"></listing></strike></var>
<ins id="3xzpl"><span id="3xzpl"><menuitem id="3xzpl"></menuitem></span></ins>
<ins id="3xzpl"><span id="3xzpl"><var id="3xzpl"></var></span></ins>

【轉載】(附鏈接)?CVPR2021 | 開放世界檢測綜述

網站首頁    行業信息    【轉載】(附鏈接)?CVPR2021 | 開放世界檢測綜述

在開放世界中分類是驗證模型安全性的重要方式,也是一個真正能夠商用落地的模型不可避免要面對的問題。傳統的分類模型都是在一個封閉的世界中進行訓練,即假設測試數據和訓練數據都來自同樣的分布(稱作分布內,in-distribution)。例如我們利用一組貓、狗照片訓練一個貓、狗分類器。然而,部署的模型在實際使用中總是會遇到一些不屬于封閉世界類別的圖片,例如老虎?;蛘咭矔龅揭恍┖陀柧殘D片視覺上大相徑庭的照片,例如卡通貓。模型應當如何去處理這些不屬于訓練分布的圖片(即分布外樣本,out-of-distribution),是開放世界領域所關注的問題。

 
開放世界領域中時常能夠見到如下幾個任務:
 
  • OD: Outlier Detection, 離群檢測
  • AD: Anomaly Detection, 異常檢測

  • ND: Novelty Detection, 新類檢測

  • OSR: Open Set Recognition, 開集識別

  • OOD Detection: Out-of-Distribution Detection, 分布外檢測

 

它們之間雖然各有千秋,卻又有千絲萬縷的聯系。雖然現有工作也有嘗試著將自己的任務和別的任務進行區分,但是各任務之間也不統一,使得整個領域都缺乏對各個任務準確的定義。讓外界甚至參與者都對各個任務的具體目標困惑。
 
為了解決這個問題,一篇名為《Generalized Out-of-Distribution Detection: A Survey》的綜述解決了這些困惑,將以上五個任務歸納進一個「廣義 · 分布外檢測」(Generalized OOD Detection)的大框架內。至此,這些任務都能進行準確的定位,而它們之間的關系也頓時清晰可辨。
 

 

  • 論文地址:https://arxiv.org/abs/2110.11334

  • 項目主頁:https://github.com/Jingkang50/OODSurvey

 

準備工作

 
為了方便理解「廣義分布外檢測框架」,我們需要了解以下兩個概念:
 

Covariate Shift:表層統計層面上的分布變化,簡稱統計偏移。

Semantic Shift:深層語義層面上的分布變化,簡稱語義偏移。

 

規范地講,如果我們用 X 代表圖片像素空間的變量,用 Y 代表圖片語義空間的變量,這樣我們可以用 P(X,Y)來表示一組圖片的分布。
 

像素空間分布 P(X)的偏移就是 Covariate Shift,可能來源于對抗樣本或者畫風的變化。

語義空間分布 P(Y)的偏移就是 Semantic Shift,可能來源于新類別的加入。

 

下圖生動地展現了這兩種分布偏移:
 

 

廣義分布外檢測(Generalized OOD Detection)

 
在學習到「統計偏移」和「語義偏移」這兩個概念之后,我們可以利用下圖來認識各個任務在框架中的位置。任務的定位使用四個維度:
 

(1)偏移類型:任務需要檢測出表層統計偏移或深層語義偏移; 

(2)分布內數據類別數:分布內數據包含一個類或多個類;

(3)對分布內樣本的處理:是否需要對分布內樣本進行分類;

(4)是否遵循“訓練 - 測試模式”:Transductive 學習需要利用所有樣本進行決策;Inductive 學習則遵循訓練 - 測試模式,目的是得到一個單獨可用的模型。

 

 

根據上圖,“異常檢測”AD 分為兩個子任務,即 Sensory AD 和 Semantic AD,即 “感知上的異常檢測” 和“語義上的異常檢測”。

 
  • 感知上的異常檢測(Sensory AD)需要識別出具有統計偏移的樣本,無論分布內樣本類別數。

  • 語義上的異常檢測(Semantic AD)需要識別出具有語義偏移的樣本,并要求分布內只有單類。

 

「新類檢測」ND 也分為兩個子任務。他們都需要識別出具有語義偏移的樣本,但是根據分布內樣本類別的不同分為「單類的新類檢測」(One-Class ND)和「多類的新類檢測」(Multi-Class ND)。
 
「開集識別」OSR 同樣需要識別出具有語義偏移的樣本,但是相比于 ND,它只關心分布內是多類別的情況,并且要求對分布內樣本進行正確的分類。
 
「分布外檢測」(OOD Detection)同樣需要識別出具有語義偏移的樣本,但是相比 OSR,它還包含了分布內是單類的情況。因此,OOD Detection 可以理解成一個包含 Semantic AD, Novelty Detection, OSR 的超級大類。
 

對各個任務的具體介紹

 
AD: Anomaly Detection, 異常檢測
 
背景:當人們提起異常(Anomaly)時,心中其實已經形成了一個 “正常” 的概念。例如,要創建一個 “熱狗 / 非熱狗檢測器”,我們將“熱狗” 的概念定義為正常,將不符合的定義為異常,也就是非熱狗。
 
請注意,在這種情況下,熱狗是一個統一的概念,無論熱狗的大小、醬汁、面包類型、價格、香腸的來源等可能存在差異。任何其他物體,如牛排、米飯,以及非食物物體,如貓和狗,都被視為異常。
 
同時,現有的異常檢測通常會對目標環境有所限制。例如,“熱狗 / 非熱狗檢測器”會采用 “檢測器只會接觸真實照片” 的假設,測試時不會存在卡通或素描圖。這使得在檢測統計偏移時避免了語義偏移的出現。另一個現實的例子是工業缺陷檢測,它針對的只是一組特定的產品裝配線。這使得在檢測統計偏移時避免了語義偏移的出現。換句話說,“開放世界”假設通常不是完全 “開放” 的。然而,“非熱狗”或 “缺陷” 其實已經形成了一個巨大的未知空間,也早已打破了 “封閉世界” 的假設。
 
綜上所述,異常檢測任務的主要特征是其統一地定義了“正常”,并且假設一個相對封閉的限制。
 
定義:異常檢測(Anomaly Detection, AD)的任務旨在找出測試集中所有偏離 “預設的正常樣本” 的異常樣本。這種偏移可能是來源于 covariate shift 或者 semantic shift。該任務通常假設另一種偏移類型不存在。這兩種不同的樣本偏移類型對應著 “異常檢測” 的兩個子任務:“感知上的異常檢測”sensory AD 和“語義上的異常檢測”semantic AD。
 
Sensory AD,即 “感知上的異常檢測”。該任務希望識別出由 covariate shift 導致的異常樣本。此處我們假設所有預定義好的“正常” 樣本都具有同一種像素空間分布,并且整個測試集的樣本空間不存在語義上的偏移,即測試集的所有樣本都來自同一個類別??偟膩碚f, “Sensory AD”旨在檢測出同一個類別的所有測試樣本中具有 “異常” 像素空間分布的樣本。
 
Semantic AD,即 “語義上的異常檢測” ,該任務希望識別出由 semantic shift(label shift)導致的異常樣本。此處我們假設所有預定義好的“正常” 樣本都具有相同的語義分布,即來自同一個類別,并且整個測試集的樣本空間具有相同的像素空間分布??偟膩碚f,“Semantic AD”旨在檢測出同種像素空間分布的所有測試樣本中非 “正常” 類別的樣本。
 
應用:
 
Sensory AD:工業檢測,對抗樣本防御,活體檢測,藝術品的偽造識別,偽證識別等。

Semantic AD:視頻監控,數據篩選等。

 

ND: Novelty Detection, 新類檢測
 
背景:“Novelty”這個詞通常指的是未知的、新穎的、有趣的東西。雖然新類檢測的目標與異常檢測相似,但是它們之間有三個顯著不同:
 
  • 在動機方面,新類檢測通常不會像異常檢測那樣將 “新類” 樣本視為錯誤、惡意、應當丟棄的。反之,該任務會將它們視為學習資源,以積極的學習態度供未來使用。例如新野生動物檢測器,檢測到的新類可供生物學界進行研究。

  • 新類檢測主要側重于語義轉移。它有一個可互相替換的名字:“novel class detection”。

  • 新類檢測去除了分布內樣本只能屬于一個類的限制。訓練集可以出現一個或多個類。

 

定義:新類檢測(Novelty Detection, ND)的任務旨在找出測試集中不屬于訓練集中任何類別的 “新類” 樣本,檢測到的 “新類” 樣本通常會為下一步增量學習(incremental learning) 提供更多的學習樣本,或者作為全新的類型進行探索研究。
 
基于訓練集中的類別數量,“新類檢測”可被分為兩個子類型: “單類新類檢測”(One-class ND);以及 “多類新類檢測”(Multi-class ND)。盡管“多類新類檢測” 的訓練集樣本中包含多個類別,其目的只是將測試集中的 “新類” 樣本與 “分布內” 樣本區分開。因此,“單類新類檢測”和 “多類新類檢測” 的本質都是二分類問題。
 
應用:視頻監控,行星探索,增量學習
 
OSR: Open Set Recognition, 開集識別
 
背景:在封閉世界中訓練的機器學習模型通常將屬于未知類別的測試樣本錯誤地分類為具有高置信度的 已知類別。一些文獻將模型這種過度自信的行為稱為“模型的傲慢”。因此,OSR 于 2013 年被提出,旨在解決這個問題。
 
定義:“開集識別”(Open Set Recognition, OSR)要求多分類器同時達到如下兩個要求:
 
  • 對測試集中屬于 “已知類別“的圖片進行準確分類;“已知類別” 代表訓練集中存在的類別。

  • 檢測出”未知”類別, “未知類別”不屬于訓練集中任何類別。

 

OOD Detection: 分布外檢測
 
背景:類似的,鑒于深度學習模型通常會對來自不同語義分布的樣本進行過度自信地分類,分布外檢測領域應運而生,要求模型在保證分類性能的同時,拒絕語義偏移的樣本,以保證可靠性和安全性。
 
定義:“分布外檢測”任務和新類識別類似,都是在找出測試集中不屬于訓練集中任何類別的 “新類” 樣本。但是在新類識別的基礎上,同時完成多分類任務。相比于 “開集識別”,“分布外檢測” 的訓練集可以是單類別的也可以是多類別的。
 
備注:雖然當前學界的大多數論文都將 “out-of-distribution” 理解為“out-of-label/semantic-distribution”,但一些分布外檢測的工作也考慮檢測 covariate shift(統計偏移)。它們聲稱 covariate shift 通常會導致模型性能顯著下降,因此需要模型進行識別和丟棄。然而,盡管在某些特定(通常是高風險)任務上檢測 covariate shift 是合理的,例如由一家醫院訓練的醫療診斷模型應該更加保守地對來自其他醫院、具有 covariate shift 的圖像進行決策,但這個目標與另一個領域 out-of-distribution generalization(領域泛化)似乎有所沖突。綜述原文對 out-of-distribution detection 和 out-of-distribution generalization 做了詳細的討論,歡迎大家閱讀原文。但是無論如何,檢測語義偏移一直是分布外檢測任務的主流。
 
OD: Outlier Detection, 離群檢測
 
背景:根據維基百科,outlier 是指與其他觀測結果顯著不同的數據點。不同于之前任務需要檢測與訓練數據分布不同的測試樣本,離群檢測則是直接處理所有觀察結果,旨在從受污染的數據集中找出異常。由于離群檢測不遵循“訓練 - 測試模式”,而其方法通常依賴于所有觀察結果,因此解決此問題的方法通常是 Transductive 傳導學習而不是 Inductive 歸納學習。
 
定義:“離群檢測”(Outlier Detection, OD)的任務旨在檢測出給定數據集中與其他樣本顯著不同的樣本,其中這種不同既可以來源于 covariate shift 也可以來源于 semantic shift。
 
應用:數據清洗
 
至此,該研究希望讀者對以上五個任務的異同有了更加深入的理解。下圖用圖片案例的方式再次比較這些任務。
 

 

方法論

 
該研究全面總結了解決 「廣義分布外檢測」中各個任務的方法。由于它們的目標大體相同,它們的解法自然也相似。研究發現它們的解法基本分為四大類:
 
  • Density-based Methods 基于密度估計的方法

  • Reconstruction-based Methods 基于重構的方法

  • Classification-based Methods 基于分類的方法

  • Distance-based Methods 基于距離的方法

 

歡迎大家參考綜述原文進行參考,同時歡迎大家在綜述的 GitHub 主頁提 issue/pr 進行補充。文尾附上了方法論的目錄。
 

 

挑戰和展望

 
最終研究人員總結了目前該領域的問題、挑戰和發展方向。
 
挑戰 1: 建立正確并且規范的評價指標
挑戰 2: 不需要額外數據的分布外檢測
挑戰 3: 分布內分類和分布外檢測的權衡
挑戰 4: 建立有現實意義并且大規模的數據集
 
展望 1: 框架中不同任務互相借鑒及比較
展望 2: 分布外檢測和分布外泛化的結合
展望 3: 分布外檢測和開集噪聲標簽學習的結合
展望 4: 期待進行更多的理論研究
 

詳情參考原文。該研究希望開放世界領域能夠發展地更好,并且希望更多研究者能夠關注并投身到這個人工智能的重要問題上。

 

—版權聲明—

僅用于學術分享,版權屬于原作者。

若有侵權,請聯系高視科技刪除或修改!

2021年11月26日 16:03
中国人熟女HDFREEHDXⅩ