中国人熟女HDFREEHDXⅩ

<listing id="3xzpl"></listing>
<var id="3xzpl"></var><var id="3xzpl"></var><cite id="3xzpl"><video id="3xzpl"></video></cite>
<var id="3xzpl"></var>
<menuitem id="3xzpl"></menuitem>
<var id="3xzpl"><strike id="3xzpl"><listing id="3xzpl"></listing></strike></var>
<var id="3xzpl"><video id="3xzpl"></video></var><cite id="3xzpl"><video id="3xzpl"><menuitem id="3xzpl"></menuitem></video></cite>
<var id="3xzpl"><video id="3xzpl"></video></var>
<var id="3xzpl"><strike id="3xzpl"><listing id="3xzpl"></listing></strike></var>
<ins id="3xzpl"><span id="3xzpl"><menuitem id="3xzpl"></menuitem></span></ins>
<ins id="3xzpl"><span id="3xzpl"><var id="3xzpl"></var></span></ins>

【自有技術大講堂】工業視覺缺陷檢測AI樣本標注策略

網站首頁    行業信息    【自有技術大講堂】工業視覺缺陷檢測AI樣本標注策略

簡介

在深度學習模型的設計和訓練中,數據的標注質量對于模型的最終效果、訓練過程的穩定程度、模型收斂的速度、模型的泛化性等諸多關系模型質量的指標有著至關重要的影響。因此,數據標注的質量,會直接影響到模型的使用效果。為了幫助用戶在操作時能選擇合適的標注任務并獲得高質量的標注數據,我們將跟數據標注有關的經驗和建議總結于本文檔中。

本文檔從工業視覺檢測的角度出發,內容分為“標注任務定義”和“數據標注流程”兩部分,用戶可根據自身需要查看對應內容。

1、標注任務定義

本部分首先介紹計算機視覺領域中的主要任務,然后介紹對應于這些視覺任務的標注需求,并舉例說明用戶該如何定義自己的數據任務范疇,選擇適合自己應用場景的標注任務。

1.1 計算機視覺任務介紹

計算機視覺問題的主要類型包括分類、目標檢測、目標分割等。

分類:輸入一張圖片,輸出一些列標簽,描述這張圖片所屬的目標類別名稱,例如分類任務示意圖,左右兩張分別表示屏幕檢測中的normaldefect。

 

 

檢測:相比分類更加精細,除了會給出圖片中含有哪些類別的目標,還會給出每個目標的位置,例如檢測任務示意圖,除了給出圖中含有的line()類別信息,還會給出line在圖中的位置。位置信息通過一系列標注框給出,標注框的信息一般包含框左上角坐標和框右下角坐標,模型對某一個目標的檢測結果輸出形式一般為:

Prediction = [label, x-min, y-min, x-max, y-max]

其中label表示目標類別名稱,(x-min, y-min)(x-max, y-max)分別代表這個目標在圖中相對位置的左上角坐標和右下角坐標,這一對坐標可以構成一個矩形。理想情況下,該矩形應該和目標的邊緣輪廓外接。經過改造之后,檢測模型還可以用于圖像分類、目標計數、目標追蹤、場景監控等場景。

 

 

分割:分割的精細程度相比檢測更進一步,除了給出目標類別、目標位置以外,分割任務還要區別每一個目標的細粒度位置信息,信息內容詳細到目標的邊緣輪廓。一般來說,模型對某一個目標的分割結果的輸出形式為:

Prediction = [label, (x-0,y-0), (x-1,y-1), (x-2,y-2), ...]

其中,label表示目標類別名稱,(xi, yi)表示某一個點的坐標,一系列的點構成一個封閉的多邊形區域,該區域即為分割的結果區域。理論上,分割可以用于解決一切檢測、分類可以解決的問題,但是分割模型的數據標注更為耗時,計算量更大,在解決實際問題時,需要綜合考慮人力、算力、時間、時效等因素。

 

焊點

焊點分割

2、數據標注流程

2.1 確定目標場景

確定目標場景,指的是分析業務場景需求,將其轉換成分類、檢測、分割等機器視覺任務。該過程可參考計算機視覺任務的介紹,根據業務需求選擇合適的計算機視覺技術方向。選型的主要依據可從以下三個角度出發:

1、對結果的精細化程度要求。如果需要給出檢測結果的明確位置信息,應該選擇檢測或分割;

2、對模型服務的響應速度要求。如果對模型響應速度要求較快,則應該選擇盡量簡單的模型,一般來說響應延遲:分類 < 檢測 < 分割;

3、標注成本。一般來說,標注的復雜度:分類 < 檢測 < 分割,標注的時間、人力等成本也是相同的關系。

一般來說,檢測可以解決大部分業務場景需求,相對分類和分割,檢測技術在標注成本、響應時間、檢測精細化程度都做到了較好的均衡,可以用適中的標注成本獲取相當精度的檢測效果,因此建議在技術方案驗證階段,可以先選用檢測方案進行小規模驗證,然后根據驗證結果再進行方案調整,進一步決定是否需要精度更高、標注成本更高、響應時間更慢的分割模型還是選擇成本和精度更低但是響應速度快的分類模型。

2.2 標注目標設計

確定標注目標是標注任務開始前的重要準備工作,主要指的是將業務邏輯轉換成標注的目標,設計能夠反應業務需求的標簽體系,以更好的讓標注任務產出的標注數據,可以更好的幫助模型擬合業務邏輯場景的需求。這個過程需要重點考慮以下幾個問題。

2.2.1 業務邏輯關注的目標有幾種?

業務邏輯關注的目標種類的數量,直接影響到標注任務的復雜程度、模型選型、標注成本等問題。另外,標注任務推進過程匯總,再進行目標新增,會直接影響到已有的標注任務推進流程,甚至有重新進行的風險,因此,在開始業務數據分析和標注之前,盡量將業務邏輯關注的目標全部明確和固化。

2.2.2 是否存在業務邏輯上是同一種目標,但實際視覺特征上差距較大的目標?

在開始標注任務設計之前,應首先明確業務邏輯關注的目標類別的粒度,該需求對標注任務的設計也有直接的影響。例如下圖有兩種缺陷,如果業務需求只需要確定圖中是否包含缺陷,劃傷和臟污從業務邏輯是同一種類別。但實際上他們的圖像特征差異比較大,如果共享同一個類別,可能會導致模型難以擬合。這種情況下,在設計標簽體系的時候,可對標簽進行適度拆分,例如劃傷、臟污分別賦與NG-劃傷”,“NG-臟污”兩種標簽類型。對于算法模型來說,這是兩種截然不同的類別,對應兩種截然不同的視覺特征表達,但是在模型檢測效果上,它們依然是“NG”這一大類別,符合業務邏輯的設定,平衡了業務需求和模型算法,更容易得到擬合效果優異的模型。

 

2.2.3 是否存在業務邏輯上不屬于同一類,但實際視覺特征上極易混淆的目標?

2.2.2相反,該問題需要關注的是,不屬于同一類別,但是視覺特征極其相似的場景。例如下圖中的Mura氣泡,在業務邏輯上屬于不同的類別,但是從視覺特征上看比較接近,容易混淆。對于這種場景,可以從以下幾個方面設計標注任務:

A. 明確接近的目標類別的特征差異和專家判別依據;

B. 上傳更多的對照數據,擴充樣本量,增加模型對特征學習的可能性;

C. 分析近似目標更多的是在同一張圖片中出現還是不在同一張圖片中出現。在標注任務設計時,將接近的類別單獨放到一個數據集中進行單獨標注和質量管控,不與其他簡單的數據集進行混淆。如果接近的目標大部分處于同一張圖片中,則將包含兩種接近目標的圖片單獨篩出,創建標注任務;如果接近的目標基本都不同時出現,更多的是出現在不同的圖片中,則將兩類各自分成一個標注任務數據集,各自進行標注,且標注過程中,可選標簽只包含其對應的類別,這樣可以快速標注且不會誤標。

 

2.2.4 各類目標的樣本數量各有多少?

防止標注數量不均衡。例如,某一批圖片中,共有類型A 1萬張,類型B 200張。但是從視覺的角度看,A不是特別難判定。這種情況下,將AB各標注適量(例如都標注200張)即可,如果后續發現類型A檢測效果不達預期,再對類型A進行標注補充即可。這樣可以節省標注時間,且保證關注的目標都可以有適量的訓練數據,避免標注的資源都被數據量特別大的一類或幾類獨占。

2.2.5 是否存在數據量特別少的目標類型?

一般來說,某類缺陷要被模型良好的識別,需要相當數量的圖片。根據目標的識別難易程度不同,所需要的樣本數量也不同,但是根據經驗,每種關注的類別的樣本數量應在100張以上才能確保模型效果相對良好且具有較好的穩定性和泛化性,最少不應少于20張才能保證模型可以對該目標初步具備檢測能力。如果某類數量少于20張,則屬于樣本量嚴重不足。在訓練時應對數據量較少的類型會進行自動增廣,但是依然難以保證涵蓋真實場景下的特征表達。因此,對于數據量特別少的類別,可采取以下策略:

A. 盡量通過仿真、擺拍等方式,在符合業務場景的前提下采集更多數據;

B. 可將數據集重復上傳,在標注過程中,標注的位置略微差異,這些差異會在一定程度上提高模型的擬合效果。

2.2.6 目標之間的尺度差異如何?

在業務場景中,可能會存在尺度差異較大的目標類別。如下圖所示,1所指的暗點相較于上面舉例的缺陷占整個畫面的比例要小很多,如果遇到這種情況,從算法角度考慮,確定算法對該類目標的檢測效果(算法對于特別小的目標的檢測效果弱于正常尺寸目標的檢測效果),如果模型可以正常檢測,則將其當做一種普通類型標注即可,否則,需要確定是否將圖片進行裁剪(例如切成九宮格),對每一張剪切后的圖片進行處理,再將結果整合到一張圖上。如果采取這種方式,則標注任務也最好基于剪切后的圖片上進行。

 

2.2.7 是否存在形態會在業務邏輯中發生較大變化的目標?

例如,在生產線中,某種缺陷的形態可能隨著生產批次的不同發生改變,如果這種變化不大,標注任務不需要做出太大調整,可通過補充數據和標注、重新迭代模型的方式使模型效果可以保持更新。如果在視覺特征上發生較大變化,且歷史數據所對應的目標類別不會再出現,則應該重新收集數據,不建議將視覺特征發生較大變化的類別直接和之前的同種類別歷史數據混合起來。

2.3 確定標注標準

在經過上一步分析后,符合業務場景需求的標注標簽體系和標注標準基本可以建立。在標注確定后應同步給所有參與標注的人員,以確保標注質量。除了與具體業務邏輯相關的標注標準以外,在標注過程中,有一些通用的標注標準,本部分進行介紹。

在目標檢測標注過程中,有以下通用原則:

2.3.1 最大最小原則

指標注框在框選目標區域時,要盡量大,大到能夠包含目標區域的主要邊界;要盡量小,小到除了目標區域邊界以外,不包含其他無關區域。

2.3.2 寧無不錯原則

在標注過程中,對于一些不確定的目標區域,寧可不打標簽,也不要打上錯誤的標簽,因為錯誤的標簽對于模型訓練的過程是很大的擾動,會導致模型訓練難以收斂,最終導致模型的泛化性極差、難以擬合等問題。

2.3.3 適當噪聲原則

在標注過程中,可以適當增加一些噪聲區域的標注,或者對于目標區域的標注過程中,適當將標注框比目標區域稍微大一些,涵蓋少許非目標區域的背景區域,但是不宜過大,整體主要目標區域占標注框面積的比例至少應為2/3以上,標注框可以適當外擴較小的比例。

2.3.4 所標即所見原則

標注過程中,不要添加主觀想象力和先驗知識,只標注從視覺上看到確定是目標的部分。

2.3.5 只標業務相關原則

假設業務邏輯規定只檢測氣泡和臟污,那么在標簽設計中,不應該設計其他類型標簽,也不應該強行給清楚看到、但是不屬于標簽體系的目標強行標注。

2021年11月2日 09:07
中国人熟女HDFREEHDXⅩ