圖像語義分割是計算機視覺最經典的任務之一,早期的圖像分割主要有以下幾種實現方法。
基于像素分布的分割算法:KMeans、Fuzzy C Means、 GMM、MeanShift
基于圖像拓撲結構的分割算法:分水嶺填充、輪廓邊緣分析
基于能量最大化的分割方法:圖割
隨著深度學習的興起,最近幾年傳統的圖像分割方法已經很少被人提起,現在開始學習圖像分割的都是基于深度學習的各種模型實現,這其中模型的訓練需要大量的數據,所以想要了解圖像分割,首先需要了解圖像分割那些質量最好的各種數據集。這些數據集可以作為 benchmark 很公平地比較各種語義分割模型的性能與精度,評價一個模型的好壞。
PASCAL Visual Object Classes(VOC)數據集
PASCAL VOC 數據集支持五種不同的視覺任務訓練包括圖像分類、對象檢測、圖像分割、行為分類、人體 Layout。分割是預測圖像種每個像素屬于哪個類別的任務,VOC 數據集總計有 21 個類別(包括背景)。分割數據集被分為訓練與測試兩個子集,分別有 1464 與 1449 張圖像。
PASCAL Context數據集
它是 PASCAL VOC 2010 數據集的擴展,包含 10103 張基于像素級別標注的訓練圖像,它包含總數 540 個類別,其中 59 個類別是常見類別,被大量標注,整個類別圖像的數據符合冪次法則分布。
SBD(Semantic Boundaries Dataset)數據集
它的數據來自那些在 PASCAL VOC 中沒有被語義分割標注的圖像數據,總計有 11355 張圖像來自 PASCAL VOC 2011,實現了兩個層級的標注分布是種類/類別與實例對象分割,其中 8498 張為訓練集,2857 張為測試集。
COCO(Microsoft Common Objects in Context)數據集
是微軟發布的圖像分類、對象檢測、實例分割、圖像語義的大規模數據集,其中圖像分割部分有 80 分類,82783 張訓練圖像、40504 張驗證圖像,測試集好感 80000 張圖像,而且測試集本身被分為四種不同測試數據,分別應對開發測試、標準測試、評估挑戰、過擬合測試。
Cityscapes
一個大規模的城市道路與交通語義分割數據集,8 大類別 30 種類的像素級別標注,數據集包含 5000 張精準標注的圖像,20000 張標注圖像。數據收集來自 50 多個城市,前后花了幾個月的時間,對這個時間線與天氣下的場景都進行圖像采集,最初原始的數據是視頻方式,通過人工選擇視頻幀,得到最終的數據。整個數據集支持三個級別的分割性能評估:
?像素級別分割
?實例級別分割
?全景級別分割
其中數據采集的城市地圖如下:
精準標注的圖像
粗糙標注的圖像
CamVid
是來自劍橋的道路與駕駛場景圖像分割數據集,圖像數據來自視頻幀提取,原始分辨率大小為 960x720,包括 32 個類別。分為 367 張訓練圖像,100 張驗證圖像,233 張測試圖像。
KITTI
自動駕駛最常用的一個數據集,數據采集來自高分辨 RGB、灰度立體相機,3D 激光掃描等。
Youtube-Objects
數據收集來自 Youtube 視頻網站,分類是 PASCAL VOC 其中 10 個子分類(aeroplane, bird, boat, car, cat, cow, dog, horse, motorbike, train)
Adobe’s Portrait Segmentation
它是一個人體肖像分割數據集,圖像分辨率為 800x600 數據來自 Flickr,多數數據是來自手機前置相機拍照的生成。數據集包含 1500 張訓練圖像,300 張測試圖像,全部被標注了,人與背景的分類,圖像標注的時候采用了半自動的標注方式。先通過程序進行人臉檢測,然后人工手動 PS 生成。
Materials in Context (MINC)
全場景的物體識別數據集,包含 23 個類別,7061 張標記訓練圖像,5000 張作為測試,2500 張作為驗證。這些圖像主要來自 OpenSur face 數據集。整個數據集的圖像分辨率分布從 800x500 到 500x800 之間。
Densely-Annotated VIdeo Segmentation (DAVIS)
該數據集主要是視頻中對象分割數據,目的是適應實時動態視頻語義分割挑戰。主要有 50 段視頻序列構成,其中 4219 幀是訓練數據,2013 幀是驗證數據,所有的視頻數據都下采樣至 480P 大小,像素級別的對每幀數據標注四個類別,分別是人、動物、車輛、對象。視頻的另外一個特征是每幀至少有一個前景目標對象在視頻幀中出現。
Stanford background
該數據集是室外場景數據集,主要數據來自 LabelMe、MSRC、PASCAL VOC、Geometric Context 公開數據集。數據集包含 715 張至少有一個前景對象圖像,進行了像素級別的圖像標注。主要用于評估分割模型的語義場景理解。
SiftFlow
包含 2688 完全標注的圖像,是 LabelMe 數據集的子集。絕大數圖像是室外八種場景,33 個類別,256x256 大小。
ADE20K
該數據集是全尺寸的圖像語義分割標注數據集,其中訓練圖像 201210 張,驗證圖像 2000張。