3D畳み込みニューラルネットワークを用いたハイパースペクトル画像のスペクトル - 空間分類

ハイパースペクトル画像はrgb画像より多い情報を持ってる画像 ハイパースペクトルとは

3D-CNNはこっち https://www.slideshare.net/ssuser07aa33/3dcnn

農業、環境科学、野生生物火災追跡、および生物学的脅威検出に使われてるという。 従来の機械学習やオートエンコーダ、生成モデルなど色々試した結果。

目次

最近の研究では、スペクトル空間情報を使用すると、ハイパースペクトル画像(HSI)分類の性能が大幅に向上することが示されています。 HSIデータは、通常、3Dキューブの形式で表示されます。したがって、3D空間フィルタリングは、当然、そのような画像内のスペクトル空間特徴を同時に抽出するための簡単で効果的な方法を提供する。本稿では、3次元畳み込みニューラルネットワーク(3D-CNN)フレームワークを提案し、正確なHSI分類を行う。提案された方法は、前処理または後処理に頼ることなくHIPSキューブデータを完全に見て、深いスペクトル - 空間結合特徴を効果的に抽出する。さらに、他の深層学習ベースの方法よりも少ないパラメータしか必要としない。したがって、モデルはより軽く、過度にフィットしにくく、トレーニングが容易です。比較と検証のために、我々は提案された方法を3つの他の深層学習ベースのHSI分類方法、すなわち積み重ねたオートエンコーダー(SAE)、深い要約ネットワーク(DBN)、および2次元CNNベースの方法異なるセンサによって捕捉されたHSIデータセット。実験結果は、我々の3D-CNNベースの方法がこれらの最先端の方法より優れており、新しい記録を立てることを示している。

キーワード:ハイパースペクトル画像分類。深層学習; 2D畳み込みニューラルネットワーク; 3D畳み込みニューラルネットワーク; 3D構造

1.はじめに

ハイパースペクトルリモートセンサは、可視波長から赤外波長に渡る数百の連続した狭いスペクトル帯域でデジタル画像を取り込むことにより、スペクトル情報と空間情報の両方を含む3Dハイパースペクトル画像(HSI)を生成します。 HSIの豊富なスペクトル情報は強力であり、農業[1]、環境科学[2]、野生生物火災追跡、および生物学的脅威検出[3]における様々な用途に幅広く採用されています。 HSIの各ピクセルの分類は、これらのアプリケーションで重要な役割を果たします。このように、最近数十年に渡ってHSI分類法が多数提案されている。 従来のHSI分類方法は、しばしばスペクトル情報のみに基づいている。典型的な分類子には、距離測定[4]、k-最近隣[5]、最尤基準[6]およびロジスティック回帰[7]に基づくものが含まれる。これらの方法の分類精度は、よく知られている「小標本の問題」のために、通常不十分である。すなわち、スペクトルバンドの数が多い場合に十分な数のトレーニングサンプルが利用できないことがある。スペクトル帯域の高次元性とトレーニングサンプルの限られた数との間のこの不均衡は、ヒューズ現象として知られている[8]。ハイパースペクトルデータの特定のスペクトル帯域は高度に相関する可能性があるため、スペクトル冗長性も観察されます。さらに、スペクトル情報のみを利用する分類アルゴリズムは、高解像度データに対して知覚される重要な空間変動を捕捉することができず、結果として一般に性能が低下する。分類性能を向上させるために、スペクトル構造と空間情報の両方を使用して分類器を設計し、空間構造をピクセルレベル分類器に組み込むことが直感的な考えである。空間情報は、適切に利用された場合に、より正確な分類マップ[9]につながる、異なる構造の形状およびサイズに関連する追加の識別情報を提供する。 スペクトル - 空間分類法は、一般的に2つのカテゴリーに分類することができる。最初はスペクトルと空間のコンテキスト情報を別々に利用します。言い換えれば、形態依存プロファイル[10,11,12]、エントロピー[13]、属性プロファイル[14]、低ランク表現[15,16]などの様々な空間フィルタを介して空間依存性を事前に抽出する。次に、これらの変換された空間的特徴はスペクトル特徴と組み合わされ、ピクセル単位の分類を行うために次元削減(DR)が適用されてもよい(適切な場合)。また、後処理段階でマルコフ・ランダム場(MRF)[17]やグラフ・カット[18]などの正則化プロセスを通じて空間情報を使用して分類結果を絞り込むこともできます。さらに、ホップフィールドニューラルネットワーク[19]やシミュレーテッドアニーリング[20,21]などの最適化アプローチが採用され、リモートセンシング画像の空間情報とスペクトル情報の両方を捕捉しています。第2のカテゴリーは、通常、空間的情報をスペクトル特徴と結び付けて融合させて、関節の特徴を生成する[22]。例えば、異なるスケールおよび周波数で生成された一連の3Dウェーブレットフィルタ[23]、3Dガボールフィルタ[24]、または3D散乱ウェーブレットフィルタ[25]は、ハイパースペクトルデータに適用され、スペクトル空間結合された特徴を抽出する。ここでも、テンソル識別局所位置合わせ(TDLA)に基づく特徴抽出[26]やスパース低ランク近似に基づく特徴埋め込み[27]のような識別情報を保存しながら、低次元スペクトル空間特徴を抽出するためにDR技法を利用することができる。 。 HSIデータは一般的に3Dキューブで表示されるため、第2のタイプのアプローチでは、空間、スペクトル、および空間/スペクトル相関の局所的な変化に関する重要な情報を含む多数のフィーチャキューブが生成される可能性があります。

しかしながら、ほとんどの従来の特徴抽出方法は、手作業の特徴と、ドメイン知識に強く依存する「浅い」学習モデルに基づいている。手作りの機能は、実際のデータに埋め込まれた詳細を考慮する必要性に対処できない場合があります。多くのタイプのHSIデータの弁別性と堅牢性の最適なバランスを達成することは困難です[28]。最近では、HSI分類の大きな可能性を秘めた最先端の機械学習技術として深層学習が浮上しています[28,29,30,31,32,33]。深層学習技術は、浅い手作業で設計された機能に頼る代わりに、生の入力データから階層的な特徴(低レベルから高レベルまで)を自動的に学習することができます。そのような学習された特徴は、多くのマシンビジョンタスクにおいて驚異的な成功を収めている。例えば、Chenらは、 (SAE)[28]やディープ・ブリーフ・ネットワーク(DBN)[31]を含め、スペクトル空間的特徴の抽出と分類のための教師なしの深い特徴の学習を適用した。 SAEとDBNは階層的な訓練方式で深い特徴を階層的に抽出することができるが、そのようなモデルの入力要件を満たすために、画像パッチからなる訓練サンプルを一次元に平坦化する必要がある。残念なことに、平坦化された訓練サンプルは、元の画像に含まれ得る同じ空間情報を保持しない。さらに、SAEおよびDBNは監督されておらず、特徴を学習するときにラベル情報を直接使用しない。 Zhao、Yue、Makantasis、およびLiang et al。 HSI分類のために畳み込みニューラルネットワーク(CNN)を利用している。空間特徴は元のHSIデータの最初のいくつかの主成分(PC)帯域を利用して2D-CNNモデルによって得られる。 CNNベースのモデルは、Chenらの完全に接続されたSAEおよびDBNモデルよりも優れた分類性能を達成できることが示されている局所的特徴を検出する能力を有する。欠点は、これらの方法が、まず、主成分分析(PCA)を利用して、2D-CNNモデルの訓練の前にHSIデータを管理可能な規模に縮小することである。空間特徴およびスペクトル特徴は別々に抽出されるので、それらは分類に重要である可能性がある結合空間/スペクトル相関情報を完全に利用することはできない。 本論文では、3D-CNNをHSI分類に導入する新しいアプローチを提示する。 3D-CNNは、3D HSIに3Dカーネルを適用することによって、特徴キューブの空間次元とスペクトル次元の両方で局所信号変化を学習し、分類のための重要な識別情報を利用することができる。スペクトル特徴と空間特徴が同時に抽出されるので、この作業は3D HSIデータの構造特性を最大限に活用します。 3D-CNNは、主にビデオベースのアプリケーション向けのコンピュータビジョンで提案されている[36,37] - 時空間の特徴を学習することに注意してください。特に、[36]で開発された3D-CNN法は、入力フレームからの情報の複数のチャネル(灰色、勾配-x、勾配-yなどで表される)を生成するためにハードワイヤードカーネルのセットを適用した。対照的に、我々の提案されたアプローチは、完全なスペクトルバンドを入力として受け取り、前処理または後処理を必要としない。結果として生じる深部分類器モデルは、エンドツーエンドの方法で訓練される。同じ規模で、我々の3D-CNNは、他のディープ学習ベースの方法よりもパラメータが少なく、典型的にトレーニングサンプルへのアクセスが制限されているHSI分類問題に適しています。 3D-CNNベースのアプローチと、前述の最新の深層学習ベースの手法を、異なるリモートセンサーによって取得された3つの実際のHSIデータセットと比較します。実験結果は、提案されたアプローチが比較したものより優れていることを示している。 この論文の残りの部分は次のように構成されています。第2章ではまず背景を紹介し、3D-CNNベースのHSI分類フレームワークを紹介します。 SAE-LR(ロジスティック回帰)[29]、DBN-LR [29]、および、他の3つの深層学習ベースのHSI分類手法と提案された方法を経験的に比較して、セクション4の実験結果とセクション4の実験結果を説明する。 [31]および2D-CNN [33]。最後に、作業をまとめ、第5章でこのペーパーを完成させます。

2.提案された方法

本章では、3D-CNNに基づく分類法の基本的な動作を詳細に説明し、このネットワークを訓練する方法を詳述し、3D-CNNモデルがHSIから抽出するものを分析する。 2.1。 3D畳み込み演算 2D-CNNは、画像分類[38,39,40]、物体検出[41,42]、および単一画像からの深度推定[43]などのアプリケーションを用いて、コンピュータビジョンおよび画像処理の分野において非常に有望であることが実証されている]。 2D-CNNの最も重要な利点は、生の入力画像から直接特徴を抽出する原理的な方法を提供することです。しかし、2D-CNNを直接HSIに適用するには、ネットワークの2D入力のすべてと、学習可能なカーネルのセットをそれぞれ畳み込む必要があります。 HSIのスペクトル次元(ネットワーク入力)に沿った何百ものチャネルは、膨大な数のカーネル(パラメータ)を必要とし、これは計算コストの増加とオーバーフィッティングする傾向があります。 この問題に対処するために、通常、特徴抽出と分類に2D-CNNを用いる前に、スペクトル法の次元を減らすためにDR法が適用される[33,34,35]。例えば、[33]では、PCAによりHSIから最初の3つの主成分(PC)を抽出し、2D-CNNを用いて、42×42のウィンドウサイズで凝縮されたHSIから深い特徴を抽出する各ピクセルのラベル最初の10個または30個のPCが保持された状態で、[34]でHSI全体を圧縮するために、ランダム化PCA(R-PCA)もスペクトル次元に沿って導入されました。これは、2D-CNNを使用して、圧縮されたHIS(ウィンドウサイズ5×5)から深い特徴を抽出し、続いて分類タスクを完了するために実行された。さらに、[35]に提示されたアプローチは、3つの計算ステップを必要とする。高レベル特徴は、HSI全体がいくつかのトップバンドを保持するPCAアルゴリズムでホワイトニングされる2D-CNNによって最初に抽出される。スパース表現技術を適用して、第1のステップによって生成された高レベルの空間的特徴をさらに低減する。これら2つのステップの後にのみ、学習された疎辞書に基づいて分類結果が得られる。これらのアプローチの明らかな欠点は、それらがスペクトル情報を良好に保存しないことである。この重要な問題に対処するために、[32]で報告されているように、追加のスペクトル特徴抽出のためのより洗練された手順を採用することができる。 深層学習における機能の自動学習機能を利用するために、3D-CNNをHSI処理に導入しました。 3D-CNNは、3D畳み込み演算に3Dカーネルを使用し、空間的特徴およびスペクトルの特徴を同時に抽出することができる。図1は、2D畳み込み演算と3D畳み込み演算の主な違いを示しています。

f:id:miyamotok0105:20170312083716p:plain 図1.(a)式(1)による2Dコンボリューション演算。 (b)式(2)による3D畳み込み演算。

2D畳み込み演算では、出力データ(すなわち、特徴マップ)を形成するために活性化関数を通過する前に、入力データが2Dカーネル(図1a参照)とコンボリューションされる。この操作は、次のように定式化することができます。 f:id:miyamotok0105:20170312083850p:plain ここでlは考慮されるレイヤーを示し、jはこのレイヤー内のフィーチャーマップの数、vxyljはlthレイヤーのj番目のフィーチャーマップ上の位置(x、y)の出力、bはバイアス、f )は活性化関数であり、mは現在のフィーチャマップに接続されている(l-1)番目のレイヤのフィーチャマップのセットを索引し、最後にkhwljmは接続されているカーネルの位置(h、w) j番目の特徴マップであり、H1およびW1はそれぞれカーネルの高さおよび幅である。 従来の2D-CNNでは、空間次元のみからフィーチャを取得する2Dフィーチャマップにコンボリューション演算が適用されます。 3Dデータに適用する場合(例えば、ビデオ解析の場合[36])、空間次元と時間次元の両方からフィーチャを取得することが望ましい。この目的のために、3D入力データから時空間特徴を計算するために、3D畳み込み演算が3D特徴キューブに適用される3D-CNNが提案された[36]。正式には、l番目の層のj番目のフィーチャキューブ上の位置(x、y、z)の値は、 f:id:miyamotok0105:20170312083926p:plain ここで、R1は、スペクトル次元に沿った3Dカーネルのサイズであり、jは、この層内のカーネルの数であり、khwrljmは、前の層におけるm番目のフィーチャキューブに接続されたカーネルの(h、w、r) 。 3D-CNNベースのHSI分類モデルでは、各フィーチャキューブは独立して処理されます。 したがって、式(2)において、mは1に設定され、3D畳み込み演算は、 f:id:miyamotok0105:20170312083954p:plain ここで、D1は3Dカーネルのスペクトル深度、iは前の層の特徴立方体の数、jはこの層のカーネル数、vxyzlijは計算された位置(x、y、z)における出力である。 khwdljは、前のレイヤのi番目のフィーチャキューブに接続されているカーネルの(h、w、d)番目の値です。 このように、l番目の畳み込み層の出力データは、i×j個の3D特徴キューブを含む。 Krizhevskyら[38]によって提案された非飽和活性化関数整流線形単位(ReLUs)は、活性化関数の最も一般的な選択の一種を形成します。 特に、勾配のある訓練時間に関して、ReLUは他の飽和活性化関数よりも速くなる傾向があります。 ここでは、ReLUをアクティベーション機能として採用しています。 その式は次のとおりです。

f:id:miyamotok0105:20170312084015p:plain 要約すると、HSI分類の場合、2D畳み込み演算は入力データを空間次元に畳み込み、3D畳み込み演算は入力データを空間次元とスペクトル次元の両方で同時に畳み込む。 2D畳み込み演算では、2Dデータに適用されているか3Dデータに適用されているかにかかわらず、その出力は2Dです。 2D畳み込み演算がHSIに適用された場合、実質的なスペクトル情報は失われ、3D畳み込みは入力HSIデータのスペクトル情報を保存し、出力量をもたらすことができる。 これは、豊富なスペクトル情報を含むHSIにとって非常に重要です。

2.2。 3D-CNNベースのHSI分類

従来の2D-CNNは、通常、畳み込み層、プール層、および完全に接続された層から構成される。 2D-CNNとは異なり、ここでHSI分類に使用される3D-CNNは、畳み込みレイヤーと完全に連結されたレイヤーのみで構成されています。 HSIの空間分解能を低下させるために知られているプーリング操作は適用されません。 [36,37]の画像レベル分類モデルと比較して、我々の3D-CNNモデルは、ピクセルレベルのHSI分類に利用されている。それは、スペクトル空間全体の特徴を知るために、3Dカーネルとコンボリューションするために、入力データとしてスペクトル帯域全体に沿った小さな空間近傍(ピクセル全体ではない)のピクセルからなる画像キューブを抽出する。したがって、特徴マップの分解能は、プール操作によってさらに低減される。隣接ピクセルを利用する理由は、小さな空間近傍のピクセルが同じ下位物質をしばしば反映するという観測に基づいている(24)(マルコフランダムフィールドで採用された平滑仮定と同様)。 提案された3D-CNNモデルは、2つの3D畳み込み層(C1およびC2)および完全に接続された層(F1)を有する。 2D CNN [44]の知見によれば、より深い構造の3×3畳み込みカーネルの小さな受容野は、一般により良い結果をもたらす。 Tran et al。時空間特徴学習[3]において、3×3×3の小さなカーネルが3D CNNにとって最良の選択であることも示している。このことに触発されて、我々は3次元畳み込みカーネルの空間サイズを3×3に固定し、カーネルのスペクトル深度をわずかに変化させた。畳み込みレイヤーの数は、入力サンプル(またはイメージキューブ)のスペースサイズによって制限され、ウィンドウはこの作業で経験的に5×5に設定されます。 3×3の空間サイズで畳み込み演算を2回実行することにより、サンプルのサイズは1×1に縮小される。したがって、提案された3D-CNNは2つの畳み込みレイヤーを含むだけで十分である。また、第2の畳み込み層におけるカーネル数は、第1の畳み込み層におけるカーネル数の2倍に設定されている。このような比率は、多くのCNNモデル(例えば、[37,38]で報告されたもの)によって一般的に採用されている。入力データは、各3D畳み込みレイヤにおいて学習可能な3Dカーネルと畳み込まれる。畳み込まれた結果は、次に、選択された活性化関数を通じて実行される。 F1層の出力は、単純な線形分類器(例えば、softmax)に供給され、必要な分類結果を生成する。ネットワークは、標準のバックプロパゲーション(BP)アルゴリズム[44]を使用して訓練されていることに注意してください。本論文では、分類器を訓練するためのロス関数としてsoftmax loss [44]を取る。したがって、フレームワークは3D-CNNと呼ばれます。このセクションでは、HSIデータを効果的かつ効率的に分類するために3D-CNNを使用する方法を詳細に説明します。 ピクセルを分類するために、そのピクセルの関連情報が3D-CNNモデルを実行することによって抽出される。図2に計算プロセスの概要を示します。説明のために、3D-CNNを3つのステップに分割します。

f:id:miyamotok0105:20170312084134p:plain 図2. 3次元畳み込みニューラルネットワーク(3D-CNN)ベースのハイパースペクトル画像(HSI)分類フレームワークの図。

ステップ1:サンプル(画像立方体)の抽出を訓練する。 S×S×L個の画像立方体は、これらの立方体の中心画素のカテゴリラベルと共に学習サンプルとして抽出される。 S×Sは空間サイズ(ウィンドウサイズ)であり、Lはスペクトルバンドの数である。 ステップ2:3D-CNNベースの深いスペクトル - 空間的特徴抽出。入力データとしては、サイズS×S×Lのサンプルを用いる。第1の3DコンボリューションレイヤC1は、サイズ(S-K11 + 1)×(S-K12 + 1)×(L-K13 + 1)の2つの3Dデータキューブを生成するサイズK11×K12×K13の2つの3Dカーネルを含む。 (3次元畳み込み方程式(3))。各3Dカーネルは、1つの3Dデータキューブをもたらす。第1のC1の2つの(S-K11 + 1)×(S-K12 + 1)×(L-K13 + 1)の3Dデータ立方体を入力として、第2の3D畳み込み層C2は4つの3Dカーネル×K22×K23)を生成し、(S-K11-K21 + 2)×(S-K12-K22 + 2)×(L-K13-K23 + 1)の大きさの8個の3Dデータキューブを生成する。 8つの3Dデータキューブは、特徴ベクトルに平坦化され、完全に連結された層F1に順応する。その出力特徴ベクトル(図2の特徴3)は、最終的に学習された深いスペクトル - 空間特徴を含む。 ステップ3:深いスペクトル - 空間的特徴に基づく分類。我々は、ソフトマックス・ロス[44]を使用して深部分級器を訓練する。 2D-CNNの場合と同様に、バックプロパゲーションによる確率的勾配降下[44]を使用して、ネットワークの損失が最小限に抑えられます。カーネルは次のように更新されます。

f:id:miyamotok0105:20170312084235p:plain ここで、iは反復指数、mは運動量変数、εは学習率、⟨∂L∂w||wi⟩iはwに関する対物象の微分のi番目のバッチDiの平均値、w 3Dカーネルとバイアスを含む3D-CNNのパラメータです。

2.3。フィーチャ分析 フィーチャ分析は、深層学習の仕組みを理解する上で重要です。このセクションでは、提案された3D-CNNによってどの特徴が抽出されるかを説明する。 HSI Pavia University Sceneを例にとると、学習されたフィーチャは3D-CNNの異なるレイヤーに関して視覚化されます。 HSI Pavia University Sceneには103のバンドが含まれています。元のHSIからサイズ50×50×103の1つのデータキューブを抽出し、このデータキューブの4つのバンドをランダムに選択して図3aに示します。第1の畳み込みレイヤーとの3D畳み込み演算の後、データキューブは、それぞれ48×48の空間サイズを有する2つのデータキューブに変換され、その8つのバンドが選択され、図3bに示されている。第1の畳み込み層の出力を第2の畳み込み層への入力として取り出し、第2の畳み込み層の出力から8つの帯域を抽出し、それらを図3cに示す。図3のフィーチャーイメージは、以下を示唆しています。 (1) 異なる特徴画像は、異なる物体タイプによって活性化される。例えば、図3cの8つの特徴画像は、基本的に8つの異なる内容によって活性化される。 (2) 異なるレイヤは異なるフィーチャタイプをエンコードします。上位層では、計算されたフィーチャはより抽象的であり、区別可能である。

f:id:miyamotok0105:20170312084403p:plain 図3.(a)入力HSI。 (b)C1から抽出された特徴画像。 (c)C2から抽出された特徴画像。

一般に、生成される特徴画像の数は非常に大きく、特徴画像は入力画像の高レベル表現として見ることができる。 特定の表現は、基礎となる画像情報を取り込むことでほとんど完了せず、多くの特徴画像が画像をよく表現するためにしばしば必要である。

3.データセットと実験的セットアップ

3.1。 データセット

提案手法の有効性を評価するために、3つの異なるHSIと2つの自然マルチスペクトル画像を用いて、3つの他の深層学習ベースのHSI分類法と比較する。

3.1.1。 パヴィア大学のシーン

パヴィア大学の場面は、2001年、イタリア北部のパヴィアでの飛行中に、反射光学系イメージング分光器(ROSIS)センサによって取得されました。 補正されていないデータは、0.43から0.86μmの範囲の115のスペクトル帯域を含み、画素あたり1.3mの空間分解能を有する。 補正されたデータは、12個のノイズが除去された後の103個のバンドを有し、610×340個のサイズである。 イメージは9つのグランドトゥルースクラスに区別されます。 我々は、表1および図4に示すように、50%の標識サンプルをトレーニングデータとしてランダムに選択し、残りはテストに使用した。 f:id:miyamotok0105:20170312084531p:plain 図4.(a)偽色のコンポジット。 (b)グラウンドトゥルー、黒色の領域はラベルのないピクセルを表します。

f:id:miyamotok0105:20170312084606p:plain 表1.パヴィア大学のシーンの色分けとサンプルサイズ

3.1.2。 ボツワナのシーン

第2のデータセットは、2001年にボツワナのOkavango Delta上のEO-1上のHyperionセンサーによって収集された。取得されたデータはもともと30m画素分解能の10nmウインドウでスペクトルの400〜2500nm部分をカバーする242個のバンドからなっていた。 校正されていない、騒がしい吸収帯をカバーするバンドが除去された後で145バンドのみが使用された。 この論文で使用されたデータは1476×256ピクセルで構成されており、14種類の識別された分類されたクラスからの観測が土地被覆タイプを表しています。 これらの標識サンプルを、表2および図5に示すように、1:1の比率でトレーニングセットおよびテストセットにランダムに分けた。

f:id:miyamotok0105:20170312084655p:plain 図5.(a)偽色のコンポジット。 (b)地上真理;黒い領域はラベルのないピクセルを示します。

f:id:miyamotok0105:20170312084732p:plain 表2.ボツワナのシーンの色分けとサンプルサイズ。

3.1.3。 インドパインズシーン

第3のデータセットは、1992年にインディアナ州北西部のインドパインズ試験場で空中可視/赤外線イメージング分光器(AVIRIS)センサによって取得された。補正されていないデータは、0.4から2.5μmの範囲の224のスペクトルバンドを含む。 これは145×145ピクセルで構成され、20mの適度な空間分解能を備えています。 吸収された領域:104-108,150-163、および220をカバーするバンドを除去することにより、修正されたデータのバンドの数が200に減少した。地上の真理値データセットは、2つの等しい部分にランダムに分離された。 1つはトレーニングデータとして使用され、もう1つはテストのために表3と図6に示されています。

f:id:miyamotok0105:20170312084849p:plain 図6.(a)フォールスカラーコンポジット。 (b)地上真理;黒い領域はラベルのないピクセルを示します。

f:id:miyamotok0105:20170312084930p:plain 表3.インドの松のシーンの色分けとサンプルサイズ。

3.2。実験的セットアップ

提案された3D-CNN法の有効性を評価するために、SAE-LR [29]、DBN-LR [31]、および2D-CNN [33]の3つの深層学習HSI分類アプローチと比較した。各モデルの分類性能を評価するために、総合精度(OA)、平均精度(AA)およびκ統計量(K)を採用した。 OAは、試験データ中の正しく分類された試料と試験試料の総数との比によって計算され、AAは各カテゴリの精度の平均値であり、測定メトリックKは、測定された精度を重み付けすることによって計算された。最後の尺度は、混同行列の対角成分と非対角成分の両方を取り入れ、一致度の堅固な指標である。これらのメソッドの機能のより説得力のある推定値を得るために、各テストデータセットに対して10回実験を実行します。毎回、グランド・トゥルース・データを無作為サンプリングで等しく分割した。

4.実験結果と考察

SAE-LR、DBN-LR、2D-CNN、および3D-CNNを含む4つの深層学習に基づく分類方法を評価し、比較した。 SAE-LRとDBN-LRは、MATLABディープラーニングツールボックスで実装されました[45]。 2D-CNNと3D-CNNは、CNNモデルをトレーニングするためのMATLABツールボックスMatConvNet [46]に基づいて実装されました。このセクションでは、詳細な結果を示し、説明します。

4.1。最先端の方法との比較

4.1.1。パヴィア大学のシーンの結果

Pavia Universityのシーン(103バンドを含む)の最初の実験では、5×5×103キューブを抽出して元のスペクトル空間特性を計算しました(セクション2のステップ2を参照してください。S = 5、L = 103 )、それらを3D-CNNの入力として使用しました。 SAE-LRおよびDBN-LRについては、元のHSIは、PCAを介してスペクトル次元に沿って4つの帯域および5つの帯域にそれぞれ縮小された。次に、5×5×4立方体と5×5×5立方体を用いて空間的特徴を形成した。最後に、得られた空間特徴を103個のスペクトル特徴と組み合わせた。 2D-CNNでは、PCAにより103チャネルから3つの主成分が生成され、元の特徴を形成するために42×42×3の立方体が抽出された。ネットワークには、3つの畳み込みレイヤーと2つのプールレイヤーが含まれていました。 3つの畳み込み層は、それぞれ、第1層、第2層、および第3層のための63個の5×5のカーネル、72個の6×6のカーネル、および72×4×4のカーネルを含んでいた。このデータセットにおいて、提案された3D-CNNモデルは、完全に連結された層(F1)と1つの分類層(表4に与えられたアーキテクチャ仕様を有する)の2つの3D畳み込み層(C1、C2)を含んでいた。 C1は2つの3×3×7のカーネルを含んでいた(K11 = 3、K12 = 3、K13 = 7のセクション2のステップ2を参照)。またC2は4×3×3のカーネル(K21 = K22 = 3、K23 = 3)。 3D-CNNは10万回以上の訓練を受け、各反復はランダムに20回のサンプルを取った。結果を表5に列挙し、10回の平均値を示し、標準偏差も報告する。視覚的分類結果を図7に示す。異なる方法を用いた詳細なマッピングを図8に示す。トレーニングサンプルの収束曲線を図9に示す。

f:id:miyamotok0105:20170312085051p:plain 図7.パヴィア大学のシーンの分類結果(a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.46%; (d)DBN-LR、OA = 98.99%; (e)2D-CNN、OA = 99.03%; (f)3D-CNN、OA = 99.39%。

f:id:miyamotok0105:20170312085140p:plain 図8.分類された領域のズーム。 (a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.46%; (d)DBN-LR、OA = 98.99%; (e)2D-CNN、OA = 99.03%; (f)3D-CNN、OA = 99.39%。

f:id:miyamotok0105:20170312085207p:plain 図9.トレーニングサンプルの収束曲線

f:id:miyamotok0105:20170312085246p:plain 表4.パビニア大学の3D-CNNのアーキテクチャ

f:id:miyamotok0105:20170312085318p:plain 表5.パヴィア大学のシーンの分類結果(%) AA:平均精度。 OA:全体的な精度。 SAE-LR:スタックオートエンコーダ - ロジスティック回帰; DBN-LR:深い信念ネットワーク - ロジスティック回帰。

3D-CNNモデルは99.39%の全体精度で最高の結果を得て、2D-CNNで達成された次善(99.03%)よりも0.36%高かった。アスファルト(クラス1、タイトルブルー)と裸土(クラス6、チョコレート)がミョウバンとして間違って分類されているようなビチューメン(クラス7、パープル)が同様の誤分類問題を抱えていたことは、クラス2、緑色)。しかし、比較的、3D-CNNは全体的に誤分類を少なくしています。図9に示すように、3D-CNNは10万回以上の訓練を受け、2D-CNNは約20万回の訓練を受け、SAE-LRとDBN-LRは600,000回以上の訓練を受け、3D-CNNは比較的少ない収束するのが難しい。これは、3D-CNNでより少ないパラメータを使用した結果である可能性があります。

4.1.2。ボツワナのシーンの結果

ボツワナの場面では、特徴抽出手順と2D-CNNの構造は上記と同じですが、3D-CNNのアーキテクチャはわずかに異なります(2つの3×3×2カーネルを含むC1およびC2は4×3の4つのカーネル×2カーネル)。このデータセットでは、3D-CNNは約8000反復で訓練され、20反復は各反復から無作為に抽出されました。ボツワナのシーンは、他の2つのデータセットに比べて分類が容易です。詳細な結果を表7に示し、図10と図11に示します。

f:id:miyamotok0105:20170312085422p:plain 図10.ボツワナのシーンの分類結果。 (a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.49%; (d)DBN-LR、OA = 98.81%; (e)2D-CNN、OA = 98.88%; (f)3D-CNN、OA = 99.55%。

f:id:miyamotok0105:20170312085500p:plain 図11.分類された領域のズーム。 (a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.49%; (d)DBN-LR、OA = 98.71%; (e)2D-CNN、OA = 98.88%; (f)3D-CNN、OA = 99.55%。

f:id:miyamotok0105:20170312085535p:plain 表6.ボツワナの3D-CNNのアーキテクチャ

f:id:miyamotok0105:20170312085605p:plain 表7.ボツワナの分類結果(%)。

ボツワナには1476×256ピクセルが含まれています。しかし、地上の真理のサンプルはわずか約3000であった。図10において、分類結果はこれらの方法の間に多くの相違を定性的に示さない。しかし、定量的には、3D-CNNが99.55%の全体精度で最良の結果を達成したことが表5に示されており、2D-CNNによって得られた次善(98.88%)より0.67%高く、1.06% SAE-LRの結果は98.49%であった。図11では、3D-CNNがズームインされた領域内の誤分類されたピクセルをほとんど有さないことが明確に分かる。

4.1.3。インドパインズシーンの結果

このデータセットでは、最初の2つのデータセットと同じ方法で3D-CNN、SAE-LR、DBN-LRのスペクトル空間特性を抽出しました。 2D-CNNと3D-CNN(表8に示されている)の構造は、パヴィア大学の場面で使用されている構造とほぼ同じです。 3D-CNNモデルは、このデータセットで約100,000回繰り返された。各反復において、トレーニングセットから無作為に20個のサンプルを選択した。詳細な結果を表9に示し、図12に示します。

参考

Remote Sensing | Free Full-Text | Spectral–Spatial Classification of Hyperspectral Imagery with 3D Convolutional Neural Network | HTML