量子コンピューティングのAPIとSDKを取得

2016年5月、IBMのQuantum Experienceは、クラウドで利用可能な量子ビットを実世界で最初に見せてくれました。コンピュータ科学者とソフトウェアエンジニアは感謝するが、物理学者と「重ね合わせ」と「絡み合い」のような用語を理解量子オタクの外に量子コンピューティングは困難な場合があります。芸術のように賞賛されるかもしれませんが、科学を理解するのに多くの時間を費やした少数の人にしかアクセスできません。でも戻って、我々は量子エクスペリエンスコミュニティを設定し2016年には、私たちのチームの目的は、量子APISDKを提供してきた理由です。これらは現在利用可能です。

当社の量子APISDKプログラマビリティのために重要であり、量子研究者やアルゴリズム開発者がハードウェア上でより簡単に実験を行うことを可能にします。昨年、私たちはユーザーにオンラインでQuantum Experienceを介して5キュビットの量子コンピュータをプログラムするインタラクティブなツールを提供しました。次に、量子コンピューティング・ルーチンを直接構築するためのIBM定義のQASMプログラミング言語を作成しました。 APISDKにより、ユーザーはPythonスクリプトを介して量子コンピューティングのパワーにアクセスすることもできます。

我々は、すべてのPythonスクリプトから、量子経験、QASMコードの実行、および結果の戻りのバックエンドへの接続を可能にするために、文書化Jupyterノートの例で、軽量のAPIを開発しました。

これを試すには、無料のQuantum Experienceアカウントを作成し、IBM Quantum SDKをダウンロードして使用してください。

私たちが調べる問題

化学物質の問題は、国立エネルギー研究科学計算センターの2013年度年次報告書に記載されているように、世界のスーパーコンピュータ電力の最大35%を消費します。これらは、効率的な触媒の開発から、肥料の製造、新薬の発見、および他の多くの困難で重要な課題にまで及ぶ。量子コンピュータは、量子化学問題を従来のコンピュータよりもずっと効率的に解決する可能性がある。今後数年間キュービットの数を増やすと、量子コンピュータの優れたコンピューティング機能を利用できるようにプログラムとアルゴリズムが必要になります。

クアンタムエクスペリエンスの現在の5キュービットシステムは、古典的なコンピュータを介して完全にモデル化することができますが、近い将来に利用可能なより高度な量子コンピュータにマップできる実際のビジネス上の課題を評価するためのテストベッドと遊び場があります。量子ビットの数を増やすと、最も強力な古典的なコンピュータでさえ試みることは実際的ではない問題を解決することができます。このような問題は、古典的なコンピュータから利用可能であるよりも多くの処理時間または計算能力を必要とする。

量子の早期採用

ありがたいことに、最適化アルゴリズムのような技術を使用して重要なビジネス上の問題を量子コンピュータにマップする方法を考え始めるまで、すべてを待つ必要はありません。理論物理学者だけでなく、開発者は量子コンピュータの活用方法を探ることができます。効率的な量子コンパイラの作成など、コンピュータサイエンスの重要な課題があります。量子コンピュータで効率的に実行できるようにプログラムをコンパイルするにはどうすればよいですか?キュビットの数が増えると、これはどのように変化しますか? SDKを使用すると、コンパイラーライターは、量子コンピューターで実行されるコードの新しい最適化手法を開発できます。

クラシックコンピュータのムーアの法則は終わりです。それはまあまあであると言われていますが、それはほとんど真実ですが、それはそれほど真実ではありません。重要な問題は「次は何か」です。理論的には古典的なコンピュータよりも指数関数的に重要な計算を行うことができるユニバーサル量子コンピュータだと考えています。ハードウェア的には、高性能でスケールアップされた量子プロセッサへの進展が非常に重要です。

一緒に働く古典と量子コンピュータは、古典的なコンピュータだけでは解決できない問題を解決します。近い将来、量子コンピュータコプロセッサとして使用され、古典的なコンピュータとGPUが連携して動作するのと同様のものです。今日、公開されているIBMのクォンタムシステムをクラウド経由で学ぶべき時期です。

Quantum Experienceにログインして始めましょう。 developerWorksのOpen QISKitプロジェクトの概要で、APISDKGitHubリンク、オープンソースの量子ツールなどのQISKitプロジェクト・コンポーネントに関する詳細情報を入手できます。

Learn more about quantum computing at IBM and on developerWorks Quantum computing at IBM Research https://www.research.ibm.com/ibm-q/

QISKit on developerWorks Open https://developer.ibm.com/open/openprojects/qiskit/

Quantum computing for everyone, a programmer’s perspective https://developer.ibm.com/dwblog/2016/quantum-computing-everyone-programmers-perspective/

参考

https://developer.ibm.com/dwblog/2017/quantum-computing-api-sdk-david-lubensky/

トンボや昆虫のスパイ?Robobugsの研究の科学者

先月ラファイエット広場での反戦集会で働いていた時に、ヴァネッサ・アラルコン氏に会った。

「誰かが「ああ、私の神、それらを見てください」と言うのが聞こえました」と、ニューヨークの大学のシニアは思い出しました。"私は見上げて、私は、 ‘一体何なの?’ 彼らはトンボや小さなヘリコプターのように見えましたが、昆虫ではありません。

群衆の中で、バーナード・クレーンもそれらを見ました。

ワシントンの弁護士は、「私は人生でそれが一番好きなことは一度も見たことがなかった。「彼らはトンボのために大きかった。私はそれが機械的なのか、それとも生きているのだろうと思った。"

ad_icon それは、ワシントンとニューヨークの政治的な出来事での類似した目撃のほんの一歩に浮かぶ質問の一つです。昆虫のような無人機は、おそらく国土安全保障省によって配備されたハイテクの監視ツールだと思われる人もいる。

他の人は、彼らが、まあ、トンボだと思っています。生物学者でさえも生き物が見ることができるロボットと見える昆虫の古代秩序です。

代理店は昆虫サイズのスパイドローンを配備したことを認めていません。しかし、多くの米国政府と民間企業が、彼らが努力していることを認めている。連邦政府から資金提供を受けたチームの中には、スパイウェアを体に搭載し、飛行筋を遠隔操作するという目的で、コンピュータチップを搭載した生きている昆虫を育てているチームもあります。

ロボッブは、容疑者の指示に従ったり、ミサイルを標的に誘導したり、倒壊したビルの谷間をナビゲートして生存者を見つけることができます。

ロボットの昆虫を作る技術的な課題は難しく、ほとんどの専門家は、完全に機能するモデルはまだ存在しないと疑っています。

「何か見つかったら、私に知らせてください」と国防総省の迅速反応技術局のゲーリー・アンダーソンは語った。

しかし、CIAは、ずっと前に1970年代にシンプルにトンボのスヌーパを開発しました。そして近年の進歩により、懐疑派でさえ、ある機関が静かに何かを運用可能にする機会が常にあると言います。

「アメリカはかなり卑劣である可能性がある」と、非営利のワシントン州の研究所である戦略・予算査定のセンターにある無人航空機の大佐であり、退役した空軍大佐のトム・エハールド氏は語った。

ロボットフライヤーは、第二次世界大戦以来、軍によって使用されてきましたが、過去10年間で、その数と洗練のレベルは非常に増加しました。国防総省の文書には、今日使用されているほぼ100種類のモデル、鳥のような小さなもの、小さな飛行機のサイズなどが書かれています。

全米飛行艦隊の艦隊は、2003年以来4倍以上の増加を記録しており、160,000時間以上の飛行時間を記録しています。米軍司令部および一般教職員の最近の報告では、交通規則がすぐに解明されなければ、軍用空域を混乱させ、潜在的に危険なものにする可能性がある」と述べた。

しかし、バードサイズからバグサイズにすることは、すべてを小さくするという単純な問題ではありません。

カリフォルニア大学バークレー校のロボット学者、ロナルド・ファアリング氏は、「金属ボールベアリングの従来のロボットを作って設計を縮小することはできません。一つには、空気力学のルールは非常に小さなスケールで変化し、正確な方法でフラップする翼が必要です。これは膨大な工学的課題です。

ad_icon 科学者たちの目の前にある証拠にもかかわらず、理論的には不可能とされた生物力学的な偉業であった。ちょうど先月、コーネル大学の研究者は、ホバリング時にエネルギーを節約するために、トンボがどのように前後の翼の動きを調整するかを明らかにする物理学の論文を発表した。

そのような発見は、飛行機を飛ぶことがエネルギー豚になる傾向があり、電池が重くなるため、ロボット工学にとって重要です。

CIAは早急に問題に取り組んでいた。30年前に同研究所の研究開発局が開発した「昆虫駆逐艦」は、トンボのように見え、4つの羽をフラップにするための小さなガソリンエンジンを搭載していました。それは飛行したが、横風を扱うことができなかったため最終的には失敗と宣言された。

代理店のジョージ・リトル報道官は、CIAがそれ以降何をしているのかについて話すことはできないと述べた。ナショナル・インテリジェンスの局長、国土安全保障省、秘密庁の事務所も、この話題について議論することを拒否した。

FBIだけが宣言的拒否を申し出た。スポークスマンによると、「我々にはそういうものはない」と述べた。

しかし、国防省は努力している。

あるアプローチでは、国防総省高等研究計画庁(DARPA)によって資金提供された研究者は、幼虫と成虫との中間段階である蛾の蛹にコンピュータチップを挿入し、それらを健康なサイボーグの蛾に孵化させる。

ハイブリッド昆虫マイクロエレクトロメカニカルシステムプロジェクトは、文字通りのシャッターバグを作成することを目的としています。カメラ付きの昆虫は、神経が内部のシリコンチップに成長してラングラーが活動をコントロールできるようになっています。DARPAの研究者は、サイボーグビートルを筋肉によって生成される様々な器具のための力で飼育している。

「最近の古典的な「ロード・オブ・ザ・リング」のフレンドリーな魔法使いのガンダルフが、空中支援を呼びかけるために蛾を使用したことを思い出してもよいだろう」とDARPAプログラムマネージャーのアムティ・ラールは8月のシンポジウムで語った。今日、彼は「このSFのビジョンは現実の領域内にある」と述べた。

DARPAの広報担当者は、プロジェクトでLalやその他の人にインタビューするという記者の要請を拒否した。

サイボーグの昆虫プロジェクトには疑惑の種があります。

「プログラムが展開する前に真剣に死んでいるだろう」とマサチューセッツ州バーリントンのiRobotにあるNaval Air Systems Commandの前司令官、Joe Dyer副長官は、家庭用および軍事用のロボットを作っていると述べた。

対照的に、完全に機械的なマイクロフライヤーは急速に進歩しています。

ad_icon カリフォルニア工科大学の研究者は、自由に飛行し、手のひらに収まる「マイクロバットオルニトプター」を作った。Vanderbilt Universityのチームも同様のデバイスを作っています。

帆のような翼では、どちらも昆虫と誤認されません。しかし、7月には、ハーバード大学のチームがフライトライクなロボットを手に入れました。その合成翼は毎秒120ビートで鳴っていました。

「昆虫が生み出す複雑な翼の動きを再現するために必要な関節構造の高速構造物を製造できることが示されました。

フライの薄い材料は、レーザーで機械加工された後、「マイクロ折り紙のように」立体的な形に折り畳まれました。交番電場は羽をフラップにする。全体の重量はちょうど65ミリグラム、またはプッシュピンのプラスティックヘッドよりもわずかです。

それでも、力を供給する糸状のつなぎ紐に取り付けられている間だけ飛ぶことができ、重大なハードルが残っているという証拠があります。

8月、スイスで開催された「飛行する昆虫とロボットに関する国際シンポジウム」で、日本の研究者らは、鷹のような4インチのウィングスパンを備えたラジオコントロールのチラシを紹介した。彼らが飛ぶのを見る人は、その作成者が「生きている魂」を感じます。"

CIAからのアドバイスを受けている他の人たちは、電池の代わりに化学燃料を使ったチラシを作っている。ジョージア工科大学での開発の初期段階で、バグよりもおもちゃ飛行機に似ている「昆虫」は、液体燃料を熱いガスに変換します。このガスは4つの羽ばたき翼と付帯設備を駆動します。

「一滴のガソリンから、一滴のガソリンよりも多くのエネルギーを得ることができます」と、チームリーダーのロバート・マイケルソンは述べています。

技術的なハードルが克服されたとしても、昆虫サイズのチラシは常に危険な投資になるでしょう。

「彼らは鳥が食べることができ、スパイダーの巣に引っかかる可能性がある」とバークレーの恐怖は語った。「あなたがどれほど賢いものであっても、そこにペンティアムを置くことができます。鳥が1時間30マイルであなたに来たら、あなたはそれについて何もできません。

抗議者たちは、エールハルト、元空軍大佐、および他の専門家が、ワシントンで発見されたホバリングの虫がスパイであることを疑っていたという多くの理由の1つでも、

だから、Crane、Alarcon、そしてDCの行進で見られる何人かの人々 - そして、2004年のように、ニューヨークの共和党全国大会において、観察的ではあるが恐らくはパノラマ的な平和行進の参加者が、第7大道の真ん中で地上から約10フィートのところに浮かぶジェットブラック・トンボ。

国立自然史博物館の昆虫学者Jerry Loutonは、彼らはおそらくトンボを見たと言いました。ワシントンには、「あなたの靴下を叩くことができる」、壮大に飾られたいくつかの大きなトンボがあります。

それと同時に、いくつかの詳細は意味をなさないと付け加えた。DCイベントの3人は、大きなトンボの尾に沿って小さな球果の大きさである球の列を独立して描写しました。これは、Loutonが説明できなかった装備品です。すべての人は、少なくとも3回の操縦が一致していると報告した。

「トンボは決してパックでは飛ばない。

民事司法担当パートナーシップのMara Verheyden-Hilliardは、彼女のグループが証人報告書を調査しており、情報開示法の要求をいくつかの連邦機関に提出したと述べた。このような機器が政治活動家を脅かすのに使われているならば、それは人々の市民権を大きく侵害するだろう」と述べた。

しかし、まだまだ地面に降り立つためにまだ苦労している多くのロボット工学者にとって、その懸念とその技術の潜在的な役割は余計なようです。

“私は人々が編集的になることを望んでいませんが、私は何を言うことができますか?” 恐れている。「携帯電話のカメラはすでにどこにでもあります。それほど違いはありません」

参考

http://www.washingtonpost.com/wp-dyn/content/article/2007/10/08/AR2007100801434_3.html?sid=ST2007100801459

政府の監視技術の未来

2011年6月、米軍は、バブルの大きさになるほど高度な技術を導入したことを認めました。 Wright-Patterson空軍基地の「微生物兵器」と呼ばれるものでは、無人機は、自然界の蛾、鷹、その他の空中の生物の飛行パターンを再現するための開発と設計に取り組んでいます。 航空宇宙技術者のグレッグ・パーカー(Greg Parker)は次のように説明しています。「スパイ行為をしたり、ミッションを狙ったりする目的で、目に見えて隠れる方法を見ています。 無人攻撃を行うために使用されるセスナサイズのプレデタードローンは世界中で知られています。米国のペンタゴンは、兵器の中に推定7,000の空中ドローンを持っています。 2011年、ペンタゴンは2030年までに議会から無人機に50億ドルを要請した。 f:id:miyamotok0105:20170312205250j:plain

彼らの調査技術は、現在、敵や核兵器を検出するためのセンサーやマルチカメラを備えた「スパイ・フライ」に向かっています。 パーカーはヘリコプター技術を駆使して、コンピュータを駆使した無人機「トンボ」を正確な情報収集武器にすることができます。 コンピュータが100%時間を費やして風を吹き込み、車がどこにいるのか分からないときに行うためには、開発しようとしている種類の技術です。 米国防総省の国防高等研究計画庁(DARPA)は、時速11マイルの速度で飛ぶことができるハチドリの無人偵察機を発表しました。 DARPAはまた、サイボーグの蛾を孵化させたいと考えて、蛾の蛹にコンピュータチップを挿入している。

f:id:miyamotok0105:20170312205258j:plain DARPAの中には、ハイブリッド昆虫マイクロ電気機械システム (HIMEM)プロジェクトがあり、その目的は、遠隔操作が可能な非常に神経系に取り付けられたカメラを使ってシャッター虫を開発することです。HIMEMの下で、サイボーグ・ビートルに取り組む研究者がいます。 他の機関は、より多くの昆虫技術を開発する米国政府のために働くのが難しいです。 カリフォルニア工科大学は、あなたの手のひらの上を飛行して快適にフィットする “mircobat ornithopter"を作りました。 ハーバード大学のチームは、120拍/秒で鳴る合成翼を持つイエバエ様のロボットをうまく構築しました。 2007年には、昆虫とロボットの飛行に関する国際シンポジウムで、日本の研究者がラジオコントロールのタカ蛾を発表しました。 米軍は、米国の国民に、これらの新しい「飛行機」が海外の任務に使用されていると信じさせるだろうが、昆虫の無人偵察機が米国内の通りの監視を始めている。 これらの昆虫様無人機は、国土安全保障省が使用するハイテクの監視ツールであると考えられています。

米国政府は、リモートで飛行パターンを制御するためにソフトウェアを直接身体に育てるために、コンピュータチップを使って昆虫を栽培するなど、さまざまなタイプのマイクロ監視機能を試しています。 中央情報局 (CIA)が1970年代以降、この技術に取り組んできました。CIAのための研究開発局によって開発された “inscetothopter"として知られています。 それはトンボのようです。しかし、それはその4つの翼を制御するための小さなガソリンエンジンを含んでいます。それはその後、自然風のパターンに対して飛行を維持することができなかったため、失敗として分類された。 イスラエル航空宇宙産業 (IAI)はこれまでに造られた最も小さい蝶形の無人機を開発しました。途中でヘリコプターのように動かすことができ、0.15グラムのカメラとメモリカードで写真を撮ることができます。 「蝶」は自然を模倣しているため、鳥や他の昆虫はそれが人ではなく現実であると確信しています。

参考

[http://fourwinds10.com/siterun_data/government/war/us-china/news.php?q=1340033015]

3D畳み込みニューラルネットワークを用いたハイパースペクトル画像のスペクトル - 空間分類

ハイパースペクトル画像はrgb画像より多い情報を持ってる画像 ハイパースペクトルとは

3D-CNNはこっち https://www.slideshare.net/ssuser07aa33/3dcnn

農業、環境科学、野生生物火災追跡、および生物学的脅威検出に使われてるという。 従来の機械学習やオートエンコーダ、生成モデルなど色々試した結果。

目次

最近の研究では、スペクトル空間情報を使用すると、ハイパースペクトル画像(HSI)分類の性能が大幅に向上することが示されています。 HSIデータは、通常、3Dキューブの形式で表示されます。したがって、3D空間フィルタリングは、当然、そのような画像内のスペクトル空間特徴を同時に抽出するための簡単で効果的な方法を提供する。本稿では、3次元畳み込みニューラルネットワーク(3D-CNN)フレームワークを提案し、正確なHSI分類を行う。提案された方法は、前処理または後処理に頼ることなくHIPSキューブデータを完全に見て、深いスペクトル - 空間結合特徴を効果的に抽出する。さらに、他の深層学習ベースの方法よりも少ないパラメータしか必要としない。したがって、モデルはより軽く、過度にフィットしにくく、トレーニングが容易です。比較と検証のために、我々は提案された方法を3つの他の深層学習ベースのHSI分類方法、すなわち積み重ねたオートエンコーダー(SAE)、深い要約ネットワーク(DBN)、および2次元CNNベースの方法異なるセンサによって捕捉されたHSIデータセット。実験結果は、我々の3D-CNNベースの方法がこれらの最先端の方法より優れており、新しい記録を立てることを示している。

キーワード:ハイパースペクトル画像分類。深層学習; 2D畳み込みニューラルネットワーク; 3D畳み込みニューラルネットワーク; 3D構造

1.はじめに

ハイパースペクトルリモートセンサは、可視波長から赤外波長に渡る数百の連続した狭いスペクトル帯域でデジタル画像を取り込むことにより、スペクトル情報と空間情報の両方を含む3Dハイパースペクトル画像(HSI)を生成します。 HSIの豊富なスペクトル情報は強力であり、農業[1]、環境科学[2]、野生生物火災追跡、および生物学的脅威検出[3]における様々な用途に幅広く採用されています。 HSIの各ピクセルの分類は、これらのアプリケーションで重要な役割を果たします。このように、最近数十年に渡ってHSI分類法が多数提案されている。 従来のHSI分類方法は、しばしばスペクトル情報のみに基づいている。典型的な分類子には、距離測定[4]、k-最近隣[5]、最尤基準[6]およびロジスティック回帰[7]に基づくものが含まれる。これらの方法の分類精度は、よく知られている「小標本の問題」のために、通常不十分である。すなわち、スペクトルバンドの数が多い場合に十分な数のトレーニングサンプルが利用できないことがある。スペクトル帯域の高次元性とトレーニングサンプルの限られた数との間のこの不均衡は、ヒューズ現象として知られている[8]。ハイパースペクトルデータの特定のスペクトル帯域は高度に相関する可能性があるため、スペクトル冗長性も観察されます。さらに、スペクトル情報のみを利用する分類アルゴリズムは、高解像度データに対して知覚される重要な空間変動を捕捉することができず、結果として一般に性能が低下する。分類性能を向上させるために、スペクトル構造と空間情報の両方を使用して分類器を設計し、空間構造をピクセルレベル分類器に組み込むことが直感的な考えである。空間情報は、適切に利用された場合に、より正確な分類マップ[9]につながる、異なる構造の形状およびサイズに関連する追加の識別情報を提供する。 スペクトル - 空間分類法は、一般的に2つのカテゴリーに分類することができる。最初はスペクトルと空間のコンテキスト情報を別々に利用します。言い換えれば、形態依存プロファイル[10,11,12]、エントロピー[13]、属性プロファイル[14]、低ランク表現[15,16]などの様々な空間フィルタを介して空間依存性を事前に抽出する。次に、これらの変換された空間的特徴はスペクトル特徴と組み合わされ、ピクセル単位の分類を行うために次元削減(DR)が適用されてもよい(適切な場合)。また、後処理段階でマルコフ・ランダム場(MRF)[17]やグラフ・カット[18]などの正則化プロセスを通じて空間情報を使用して分類結果を絞り込むこともできます。さらに、ホップフィールドニューラルネットワーク[19]やシミュレーテッドアニーリング[20,21]などの最適化アプローチが採用され、リモートセンシング画像の空間情報とスペクトル情報の両方を捕捉しています。第2のカテゴリーは、通常、空間的情報をスペクトル特徴と結び付けて融合させて、関節の特徴を生成する[22]。例えば、異なるスケールおよび周波数で生成された一連の3Dウェーブレットフィルタ[23]、3Dガボールフィルタ[24]、または3D散乱ウェーブレットフィルタ[25]は、ハイパースペクトルデータに適用され、スペクトル空間結合された特徴を抽出する。ここでも、テンソル識別局所位置合わせ(TDLA)に基づく特徴抽出[26]やスパース低ランク近似に基づく特徴埋め込み[27]のような識別情報を保存しながら、低次元スペクトル空間特徴を抽出するためにDR技法を利用することができる。 。 HSIデータは一般的に3Dキューブで表示されるため、第2のタイプのアプローチでは、空間、スペクトル、および空間/スペクトル相関の局所的な変化に関する重要な情報を含む多数のフィーチャキューブが生成される可能性があります。

しかしながら、ほとんどの従来の特徴抽出方法は、手作業の特徴と、ドメイン知識に強く依存する「浅い」学習モデルに基づいている。手作りの機能は、実際のデータに埋め込まれた詳細を考慮する必要性に対処できない場合があります。多くのタイプのHSIデータの弁別性と堅牢性の最適なバランスを達成することは困難です[28]。最近では、HSI分類の大きな可能性を秘めた最先端の機械学習技術として深層学習が浮上しています[28,29,30,31,32,33]。深層学習技術は、浅い手作業で設計された機能に頼る代わりに、生の入力データから階層的な特徴(低レベルから高レベルまで)を自動的に学習することができます。そのような学習された特徴は、多くのマシンビジョンタスクにおいて驚異的な成功を収めている。例えば、Chenらは、 (SAE)[28]やディープ・ブリーフ・ネットワーク(DBN)[31]を含め、スペクトル空間的特徴の抽出と分類のための教師なしの深い特徴の学習を適用した。 SAEとDBNは階層的な訓練方式で深い特徴を階層的に抽出することができるが、そのようなモデルの入力要件を満たすために、画像パッチからなる訓練サンプルを一次元に平坦化する必要がある。残念なことに、平坦化された訓練サンプルは、元の画像に含まれ得る同じ空間情報を保持しない。さらに、SAEおよびDBNは監督されておらず、特徴を学習するときにラベル情報を直接使用しない。 Zhao、Yue、Makantasis、およびLiang et al。 HSI分類のために畳み込みニューラルネットワーク(CNN)を利用している。空間特徴は元のHSIデータの最初のいくつかの主成分(PC)帯域を利用して2D-CNNモデルによって得られる。 CNNベースのモデルは、Chenらの完全に接続されたSAEおよびDBNモデルよりも優れた分類性能を達成できることが示されている局所的特徴を検出する能力を有する。欠点は、これらの方法が、まず、主成分分析(PCA)を利用して、2D-CNNモデルの訓練の前にHSIデータを管理可能な規模に縮小することである。空間特徴およびスペクトル特徴は別々に抽出されるので、それらは分類に重要である可能性がある結合空間/スペクトル相関情報を完全に利用することはできない。 本論文では、3D-CNNをHSI分類に導入する新しいアプローチを提示する。 3D-CNNは、3D HSIに3Dカーネルを適用することによって、特徴キューブの空間次元とスペクトル次元の両方で局所信号変化を学習し、分類のための重要な識別情報を利用することができる。スペクトル特徴と空間特徴が同時に抽出されるので、この作業は3D HSIデータの構造特性を最大限に活用します。 3D-CNNは、主にビデオベースのアプリケーション向けのコンピュータビジョンで提案されている[36,37] - 時空間の特徴を学習することに注意してください。特に、[36]で開発された3D-CNN法は、入力フレームからの情報の複数のチャネル(灰色、勾配-x、勾配-yなどで表される)を生成するためにハードワイヤードカーネルのセットを適用した。対照的に、我々の提案されたアプローチは、完全なスペクトルバンドを入力として受け取り、前処理または後処理を必要としない。結果として生じる深部分類器モデルは、エンドツーエンドの方法で訓練される。同じ規模で、我々の3D-CNNは、他のディープ学習ベースの方法よりもパラメータが少なく、典型的にトレーニングサンプルへのアクセスが制限されているHSI分類問題に適しています。 3D-CNNベースのアプローチと、前述の最新の深層学習ベースの手法を、異なるリモートセンサーによって取得された3つの実際のHSIデータセットと比較します。実験結果は、提案されたアプローチが比較したものより優れていることを示している。 この論文の残りの部分は次のように構成されています。第2章ではまず背景を紹介し、3D-CNNベースのHSI分類フレームワークを紹介します。 SAE-LR(ロジスティック回帰)[29]、DBN-LR [29]、および、他の3つの深層学習ベースのHSI分類手法と提案された方法を経験的に比較して、セクション4の実験結果とセクション4の実験結果を説明する。 [31]および2D-CNN [33]。最後に、作業をまとめ、第5章でこのペーパーを完成させます。

2.提案された方法

本章では、3D-CNNに基づく分類法の基本的な動作を詳細に説明し、このネットワークを訓練する方法を詳述し、3D-CNNモデルがHSIから抽出するものを分析する。 2.1。 3D畳み込み演算 2D-CNNは、画像分類[38,39,40]、物体検出[41,42]、および単一画像からの深度推定[43]などのアプリケーションを用いて、コンピュータビジョンおよび画像処理の分野において非常に有望であることが実証されている]。 2D-CNNの最も重要な利点は、生の入力画像から直接特徴を抽出する原理的な方法を提供することです。しかし、2D-CNNを直接HSIに適用するには、ネットワークの2D入力のすべてと、学習可能なカーネルのセットをそれぞれ畳み込む必要があります。 HSIのスペクトル次元(ネットワーク入力)に沿った何百ものチャネルは、膨大な数のカーネル(パラメータ)を必要とし、これは計算コストの増加とオーバーフィッティングする傾向があります。 この問題に対処するために、通常、特徴抽出と分類に2D-CNNを用いる前に、スペクトル法の次元を減らすためにDR法が適用される[33,34,35]。例えば、[33]では、PCAによりHSIから最初の3つの主成分(PC)を抽出し、2D-CNNを用いて、42×42のウィンドウサイズで凝縮されたHSIから深い特徴を抽出する各ピクセルのラベル最初の10個または30個のPCが保持された状態で、[34]でHSI全体を圧縮するために、ランダム化PCA(R-PCA)もスペクトル次元に沿って導入されました。これは、2D-CNNを使用して、圧縮されたHIS(ウィンドウサイズ5×5)から深い特徴を抽出し、続いて分類タスクを完了するために実行された。さらに、[35]に提示されたアプローチは、3つの計算ステップを必要とする。高レベル特徴は、HSI全体がいくつかのトップバンドを保持するPCAアルゴリズムでホワイトニングされる2D-CNNによって最初に抽出される。スパース表現技術を適用して、第1のステップによって生成された高レベルの空間的特徴をさらに低減する。これら2つのステップの後にのみ、学習された疎辞書に基づいて分類結果が得られる。これらのアプローチの明らかな欠点は、それらがスペクトル情報を良好に保存しないことである。この重要な問題に対処するために、[32]で報告されているように、追加のスペクトル特徴抽出のためのより洗練された手順を採用することができる。 深層学習における機能の自動学習機能を利用するために、3D-CNNをHSI処理に導入しました。 3D-CNNは、3D畳み込み演算に3Dカーネルを使用し、空間的特徴およびスペクトルの特徴を同時に抽出することができる。図1は、2D畳み込み演算と3D畳み込み演算の主な違いを示しています。

f:id:miyamotok0105:20170312083716p:plain 図1.(a)式(1)による2Dコンボリューション演算。 (b)式(2)による3D畳み込み演算。

2D畳み込み演算では、出力データ(すなわち、特徴マップ)を形成するために活性化関数を通過する前に、入力データが2Dカーネル(図1a参照)とコンボリューションされる。この操作は、次のように定式化することができます。 f:id:miyamotok0105:20170312083850p:plain ここでlは考慮されるレイヤーを示し、jはこのレイヤー内のフィーチャーマップの数、vxyljはlthレイヤーのj番目のフィーチャーマップ上の位置(x、y)の出力、bはバイアス、f )は活性化関数であり、mは現在のフィーチャマップに接続されている(l-1)番目のレイヤのフィーチャマップのセットを索引し、最後にkhwljmは接続されているカーネルの位置(h、w) j番目の特徴マップであり、H1およびW1はそれぞれカーネルの高さおよび幅である。 従来の2D-CNNでは、空間次元のみからフィーチャを取得する2Dフィーチャマップにコンボリューション演算が適用されます。 3Dデータに適用する場合(例えば、ビデオ解析の場合[36])、空間次元と時間次元の両方からフィーチャを取得することが望ましい。この目的のために、3D入力データから時空間特徴を計算するために、3D畳み込み演算が3D特徴キューブに適用される3D-CNNが提案された[36]。正式には、l番目の層のj番目のフィーチャキューブ上の位置(x、y、z)の値は、 f:id:miyamotok0105:20170312083926p:plain ここで、R1は、スペクトル次元に沿った3Dカーネルのサイズであり、jは、この層内のカーネルの数であり、khwrljmは、前の層におけるm番目のフィーチャキューブに接続されたカーネルの(h、w、r) 。 3D-CNNベースのHSI分類モデルでは、各フィーチャキューブは独立して処理されます。 したがって、式(2)において、mは1に設定され、3D畳み込み演算は、 f:id:miyamotok0105:20170312083954p:plain ここで、D1は3Dカーネルのスペクトル深度、iは前の層の特徴立方体の数、jはこの層のカーネル数、vxyzlijは計算された位置(x、y、z)における出力である。 khwdljは、前のレイヤのi番目のフィーチャキューブに接続されているカーネルの(h、w、d)番目の値です。 このように、l番目の畳み込み層の出力データは、i×j個の3D特徴キューブを含む。 Krizhevskyら[38]によって提案された非飽和活性化関数整流線形単位(ReLUs)は、活性化関数の最も一般的な選択の一種を形成します。 特に、勾配のある訓練時間に関して、ReLUは他の飽和活性化関数よりも速くなる傾向があります。 ここでは、ReLUをアクティベーション機能として採用しています。 その式は次のとおりです。

f:id:miyamotok0105:20170312084015p:plain 要約すると、HSI分類の場合、2D畳み込み演算は入力データを空間次元に畳み込み、3D畳み込み演算は入力データを空間次元とスペクトル次元の両方で同時に畳み込む。 2D畳み込み演算では、2Dデータに適用されているか3Dデータに適用されているかにかかわらず、その出力は2Dです。 2D畳み込み演算がHSIに適用された場合、実質的なスペクトル情報は失われ、3D畳み込みは入力HSIデータのスペクトル情報を保存し、出力量をもたらすことができる。 これは、豊富なスペクトル情報を含むHSIにとって非常に重要です。

2.2。 3D-CNNベースのHSI分類

従来の2D-CNNは、通常、畳み込み層、プール層、および完全に接続された層から構成される。 2D-CNNとは異なり、ここでHSI分類に使用される3D-CNNは、畳み込みレイヤーと完全に連結されたレイヤーのみで構成されています。 HSIの空間分解能を低下させるために知られているプーリング操作は適用されません。 [36,37]の画像レベル分類モデルと比較して、我々の3D-CNNモデルは、ピクセルレベルのHSI分類に利用されている。それは、スペクトル空間全体の特徴を知るために、3Dカーネルとコンボリューションするために、入力データとしてスペクトル帯域全体に沿った小さな空間近傍(ピクセル全体ではない)のピクセルからなる画像キューブを抽出する。したがって、特徴マップの分解能は、プール操作によってさらに低減される。隣接ピクセルを利用する理由は、小さな空間近傍のピクセルが同じ下位物質をしばしば反映するという観測に基づいている(24)(マルコフランダムフィールドで採用された平滑仮定と同様)。 提案された3D-CNNモデルは、2つの3D畳み込み層(C1およびC2)および完全に接続された層(F1)を有する。 2D CNN [44]の知見によれば、より深い構造の3×3畳み込みカーネルの小さな受容野は、一般により良い結果をもたらす。 Tran et al。時空間特徴学習[3]において、3×3×3の小さなカーネルが3D CNNにとって最良の選択であることも示している。このことに触発されて、我々は3次元畳み込みカーネルの空間サイズを3×3に固定し、カーネルのスペクトル深度をわずかに変化させた。畳み込みレイヤーの数は、入力サンプル(またはイメージキューブ)のスペースサイズによって制限され、ウィンドウはこの作業で経験的に5×5に設定されます。 3×3の空間サイズで畳み込み演算を2回実行することにより、サンプルのサイズは1×1に縮小される。したがって、提案された3D-CNNは2つの畳み込みレイヤーを含むだけで十分である。また、第2の畳み込み層におけるカーネル数は、第1の畳み込み層におけるカーネル数の2倍に設定されている。このような比率は、多くのCNNモデル(例えば、[37,38]で報告されたもの)によって一般的に採用されている。入力データは、各3D畳み込みレイヤにおいて学習可能な3Dカーネルと畳み込まれる。畳み込まれた結果は、次に、選択された活性化関数を通じて実行される。 F1層の出力は、単純な線形分類器(例えば、softmax)に供給され、必要な分類結果を生成する。ネットワークは、標準のバックプロパゲーション(BP)アルゴリズム[44]を使用して訓練されていることに注意してください。本論文では、分類器を訓練するためのロス関数としてsoftmax loss [44]を取る。したがって、フレームワークは3D-CNNと呼ばれます。このセクションでは、HSIデータを効果的かつ効率的に分類するために3D-CNNを使用する方法を詳細に説明します。 ピクセルを分類するために、そのピクセルの関連情報が3D-CNNモデルを実行することによって抽出される。図2に計算プロセスの概要を示します。説明のために、3D-CNNを3つのステップに分割します。

f:id:miyamotok0105:20170312084134p:plain 図2. 3次元畳み込みニューラルネットワーク(3D-CNN)ベースのハイパースペクトル画像(HSI)分類フレームワークの図。

ステップ1:サンプル(画像立方体)の抽出を訓練する。 S×S×L個の画像立方体は、これらの立方体の中心画素のカテゴリラベルと共に学習サンプルとして抽出される。 S×Sは空間サイズ(ウィンドウサイズ)であり、Lはスペクトルバンドの数である。 ステップ2:3D-CNNベースの深いスペクトル - 空間的特徴抽出。入力データとしては、サイズS×S×Lのサンプルを用いる。第1の3DコンボリューションレイヤC1は、サイズ(S-K11 + 1)×(S-K12 + 1)×(L-K13 + 1)の2つの3Dデータキューブを生成するサイズK11×K12×K13の2つの3Dカーネルを含む。 (3次元畳み込み方程式(3))。各3Dカーネルは、1つの3Dデータキューブをもたらす。第1のC1の2つの(S-K11 + 1)×(S-K12 + 1)×(L-K13 + 1)の3Dデータ立方体を入力として、第2の3D畳み込み層C2は4つの3Dカーネル×K22×K23)を生成し、(S-K11-K21 + 2)×(S-K12-K22 + 2)×(L-K13-K23 + 1)の大きさの8個の3Dデータキューブを生成する。 8つの3Dデータキューブは、特徴ベクトルに平坦化され、完全に連結された層F1に順応する。その出力特徴ベクトル(図2の特徴3)は、最終的に学習された深いスペクトル - 空間特徴を含む。 ステップ3:深いスペクトル - 空間的特徴に基づく分類。我々は、ソフトマックス・ロス[44]を使用して深部分級器を訓練する。 2D-CNNの場合と同様に、バックプロパゲーションによる確率的勾配降下[44]を使用して、ネットワークの損失が最小限に抑えられます。カーネルは次のように更新されます。

f:id:miyamotok0105:20170312084235p:plain ここで、iは反復指数、mは運動量変数、εは学習率、⟨∂L∂w||wi⟩iはwに関する対物象の微分のi番目のバッチDiの平均値、w 3Dカーネルとバイアスを含む3D-CNNのパラメータです。

2.3。フィーチャ分析 フィーチャ分析は、深層学習の仕組みを理解する上で重要です。このセクションでは、提案された3D-CNNによってどの特徴が抽出されるかを説明する。 HSI Pavia University Sceneを例にとると、学習されたフィーチャは3D-CNNの異なるレイヤーに関して視覚化されます。 HSI Pavia University Sceneには103のバンドが含まれています。元のHSIからサイズ50×50×103の1つのデータキューブを抽出し、このデータキューブの4つのバンドをランダムに選択して図3aに示します。第1の畳み込みレイヤーとの3D畳み込み演算の後、データキューブは、それぞれ48×48の空間サイズを有する2つのデータキューブに変換され、その8つのバンドが選択され、図3bに示されている。第1の畳み込み層の出力を第2の畳み込み層への入力として取り出し、第2の畳み込み層の出力から8つの帯域を抽出し、それらを図3cに示す。図3のフィーチャーイメージは、以下を示唆しています。 (1) 異なる特徴画像は、異なる物体タイプによって活性化される。例えば、図3cの8つの特徴画像は、基本的に8つの異なる内容によって活性化される。 (2) 異なるレイヤは異なるフィーチャタイプをエンコードします。上位層では、計算されたフィーチャはより抽象的であり、区別可能である。

f:id:miyamotok0105:20170312084403p:plain 図3.(a)入力HSI。 (b)C1から抽出された特徴画像。 (c)C2から抽出された特徴画像。

一般に、生成される特徴画像の数は非常に大きく、特徴画像は入力画像の高レベル表現として見ることができる。 特定の表現は、基礎となる画像情報を取り込むことでほとんど完了せず、多くの特徴画像が画像をよく表現するためにしばしば必要である。

3.データセットと実験的セットアップ

3.1。 データセット

提案手法の有効性を評価するために、3つの異なるHSIと2つの自然マルチスペクトル画像を用いて、3つの他の深層学習ベースのHSI分類法と比較する。

3.1.1。 パヴィア大学のシーン

パヴィア大学の場面は、2001年、イタリア北部のパヴィアでの飛行中に、反射光学系イメージング分光器(ROSIS)センサによって取得されました。 補正されていないデータは、0.43から0.86μmの範囲の115のスペクトル帯域を含み、画素あたり1.3mの空間分解能を有する。 補正されたデータは、12個のノイズが除去された後の103個のバンドを有し、610×340個のサイズである。 イメージは9つのグランドトゥルースクラスに区別されます。 我々は、表1および図4に示すように、50%の標識サンプルをトレーニングデータとしてランダムに選択し、残りはテストに使用した。 f:id:miyamotok0105:20170312084531p:plain 図4.(a)偽色のコンポジット。 (b)グラウンドトゥルー、黒色の領域はラベルのないピクセルを表します。

f:id:miyamotok0105:20170312084606p:plain 表1.パヴィア大学のシーンの色分けとサンプルサイズ

3.1.2。 ボツワナのシーン

第2のデータセットは、2001年にボツワナのOkavango Delta上のEO-1上のHyperionセンサーによって収集された。取得されたデータはもともと30m画素分解能の10nmウインドウでスペクトルの400〜2500nm部分をカバーする242個のバンドからなっていた。 校正されていない、騒がしい吸収帯をカバーするバンドが除去された後で145バンドのみが使用された。 この論文で使用されたデータは1476×256ピクセルで構成されており、14種類の識別された分類されたクラスからの観測が土地被覆タイプを表しています。 これらの標識サンプルを、表2および図5に示すように、1:1の比率でトレーニングセットおよびテストセットにランダムに分けた。

f:id:miyamotok0105:20170312084655p:plain 図5.(a)偽色のコンポジット。 (b)地上真理;黒い領域はラベルのないピクセルを示します。

f:id:miyamotok0105:20170312084732p:plain 表2.ボツワナのシーンの色分けとサンプルサイズ。

3.1.3。 インドパインズシーン

第3のデータセットは、1992年にインディアナ州北西部のインドパインズ試験場で空中可視/赤外線イメージング分光器(AVIRIS)センサによって取得された。補正されていないデータは、0.4から2.5μmの範囲の224のスペクトルバンドを含む。 これは145×145ピクセルで構成され、20mの適度な空間分解能を備えています。 吸収された領域:104-108,150-163、および220をカバーするバンドを除去することにより、修正されたデータのバンドの数が200に減少した。地上の真理値データセットは、2つの等しい部分にランダムに分離された。 1つはトレーニングデータとして使用され、もう1つはテストのために表3と図6に示されています。

f:id:miyamotok0105:20170312084849p:plain 図6.(a)フォールスカラーコンポジット。 (b)地上真理;黒い領域はラベルのないピクセルを示します。

f:id:miyamotok0105:20170312084930p:plain 表3.インドの松のシーンの色分けとサンプルサイズ。

3.2。実験的セットアップ

提案された3D-CNN法の有効性を評価するために、SAE-LR [29]、DBN-LR [31]、および2D-CNN [33]の3つの深層学習HSI分類アプローチと比較した。各モデルの分類性能を評価するために、総合精度(OA)、平均精度(AA)およびκ統計量(K)を採用した。 OAは、試験データ中の正しく分類された試料と試験試料の総数との比によって計算され、AAは各カテゴリの精度の平均値であり、測定メトリックKは、測定された精度を重み付けすることによって計算された。最後の尺度は、混同行列の対角成分と非対角成分の両方を取り入れ、一致度の堅固な指標である。これらのメソッドの機能のより説得力のある推定値を得るために、各テストデータセットに対して10回実験を実行します。毎回、グランド・トゥルース・データを無作為サンプリングで等しく分割した。

4.実験結果と考察

SAE-LR、DBN-LR、2D-CNN、および3D-CNNを含む4つの深層学習に基づく分類方法を評価し、比較した。 SAE-LRとDBN-LRは、MATLABディープラーニングツールボックスで実装されました[45]。 2D-CNNと3D-CNNは、CNNモデルをトレーニングするためのMATLABツールボックスMatConvNet [46]に基づいて実装されました。このセクションでは、詳細な結果を示し、説明します。

4.1。最先端の方法との比較

4.1.1。パヴィア大学のシーンの結果

Pavia Universityのシーン(103バンドを含む)の最初の実験では、5×5×103キューブを抽出して元のスペクトル空間特性を計算しました(セクション2のステップ2を参照してください。S = 5、L = 103 )、それらを3D-CNNの入力として使用しました。 SAE-LRおよびDBN-LRについては、元のHSIは、PCAを介してスペクトル次元に沿って4つの帯域および5つの帯域にそれぞれ縮小された。次に、5×5×4立方体と5×5×5立方体を用いて空間的特徴を形成した。最後に、得られた空間特徴を103個のスペクトル特徴と組み合わせた。 2D-CNNでは、PCAにより103チャネルから3つの主成分が生成され、元の特徴を形成するために42×42×3の立方体が抽出された。ネットワークには、3つの畳み込みレイヤーと2つのプールレイヤーが含まれていました。 3つの畳み込み層は、それぞれ、第1層、第2層、および第3層のための63個の5×5のカーネル、72個の6×6のカーネル、および72×4×4のカーネルを含んでいた。このデータセットにおいて、提案された3D-CNNモデルは、完全に連結された層(F1)と1つの分類層(表4に与えられたアーキテクチャ仕様を有する)の2つの3D畳み込み層(C1、C2)を含んでいた。 C1は2つの3×3×7のカーネルを含んでいた(K11 = 3、K12 = 3、K13 = 7のセクション2のステップ2を参照)。またC2は4×3×3のカーネル(K21 = K22 = 3、K23 = 3)。 3D-CNNは10万回以上の訓練を受け、各反復はランダムに20回のサンプルを取った。結果を表5に列挙し、10回の平均値を示し、標準偏差も報告する。視覚的分類結果を図7に示す。異なる方法を用いた詳細なマッピングを図8に示す。トレーニングサンプルの収束曲線を図9に示す。

f:id:miyamotok0105:20170312085051p:plain 図7.パヴィア大学のシーンの分類結果(a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.46%; (d)DBN-LR、OA = 98.99%; (e)2D-CNN、OA = 99.03%; (f)3D-CNN、OA = 99.39%。

f:id:miyamotok0105:20170312085140p:plain 図8.分類された領域のズーム。 (a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.46%; (d)DBN-LR、OA = 98.99%; (e)2D-CNN、OA = 99.03%; (f)3D-CNN、OA = 99.39%。

f:id:miyamotok0105:20170312085207p:plain 図9.トレーニングサンプルの収束曲線

f:id:miyamotok0105:20170312085246p:plain 表4.パビニア大学の3D-CNNのアーキテクチャ

f:id:miyamotok0105:20170312085318p:plain 表5.パヴィア大学のシーンの分類結果(%) AA:平均精度。 OA:全体的な精度。 SAE-LR:スタックオートエンコーダ - ロジスティック回帰; DBN-LR:深い信念ネットワーク - ロジスティック回帰。

3D-CNNモデルは99.39%の全体精度で最高の結果を得て、2D-CNNで達成された次善(99.03%)よりも0.36%高かった。アスファルト(クラス1、タイトルブルー)と裸土(クラス6、チョコレート)がミョウバンとして間違って分類されているようなビチューメン(クラス7、パープル)が同様の誤分類問題を抱えていたことは、クラス2、緑色)。しかし、比較的、3D-CNNは全体的に誤分類を少なくしています。図9に示すように、3D-CNNは10万回以上の訓練を受け、2D-CNNは約20万回の訓練を受け、SAE-LRとDBN-LRは600,000回以上の訓練を受け、3D-CNNは比較的少ない収束するのが難しい。これは、3D-CNNでより少ないパラメータを使用した結果である可能性があります。

4.1.2。ボツワナのシーンの結果

ボツワナの場面では、特徴抽出手順と2D-CNNの構造は上記と同じですが、3D-CNNのアーキテクチャはわずかに異なります(2つの3×3×2カーネルを含むC1およびC2は4×3の4つのカーネル×2カーネル)。このデータセットでは、3D-CNNは約8000反復で訓練され、20反復は各反復から無作為に抽出されました。ボツワナのシーンは、他の2つのデータセットに比べて分類が容易です。詳細な結果を表7に示し、図10と図11に示します。

f:id:miyamotok0105:20170312085422p:plain 図10.ボツワナのシーンの分類結果。 (a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.49%; (d)DBN-LR、OA = 98.81%; (e)2D-CNN、OA = 98.88%; (f)3D-CNN、OA = 99.55%。

f:id:miyamotok0105:20170312085500p:plain 図11.分類された領域のズーム。 (a)偽色のコンポジット。 (b)地上真理; (c)SAE-LR、OA = 98.49%; (d)DBN-LR、OA = 98.71%; (e)2D-CNN、OA = 98.88%; (f)3D-CNN、OA = 99.55%。

f:id:miyamotok0105:20170312085535p:plain 表6.ボツワナの3D-CNNのアーキテクチャ

f:id:miyamotok0105:20170312085605p:plain 表7.ボツワナの分類結果(%)。

ボツワナには1476×256ピクセルが含まれています。しかし、地上の真理のサンプルはわずか約3000であった。図10において、分類結果はこれらの方法の間に多くの相違を定性的に示さない。しかし、定量的には、3D-CNNが99.55%の全体精度で最良の結果を達成したことが表5に示されており、2D-CNNによって得られた次善(98.88%)より0.67%高く、1.06% SAE-LRの結果は98.49%であった。図11では、3D-CNNがズームインされた領域内の誤分類されたピクセルをほとんど有さないことが明確に分かる。

4.1.3。インドパインズシーンの結果

このデータセットでは、最初の2つのデータセットと同じ方法で3D-CNN、SAE-LR、DBN-LRのスペクトル空間特性を抽出しました。 2D-CNNと3D-CNN(表8に示されている)の構造は、パヴィア大学の場面で使用されている構造とほぼ同じです。 3D-CNNモデルは、このデータセットで約100,000回繰り返された。各反復において、トレーニングセットから無作為に20個のサンプルを選択した。詳細な結果を表9に示し、図12に示します。

参考

Remote Sensing | Free Full-Text | Spectral–Spatial Classification of Hyperspectral Imagery with 3D Convolutional Neural Network | HTML

人工知能のサイバーセキュリティへの影響

ビジネス戦略と機械学習とAIの影響についてどのように考える必要がありますか?

世界経済フォーラムによる第4次産業革命で述べられている物体、建物、生物学的進歩との技術のより幅広い融合に伴い、人間と機械の境界はどこにあるのか?今日では、故障した機械アルゴリズムと接続された自動車から複雑な自動化を学び、ウェブサイトの推奨、ソーシャルメディアのプロファイリングとサーベイランスに至るニューラルネットまでの平均時間データの統計的予測分析からの急速な発展が含まれていますか?ディープ・ラーニングの分野における最近の進歩は、5年前にJeopardyからのゲームを勝ち抜くためにリアルタイムで画像や声の翻訳に関する人間の能力や人間の能力を超えて驚くべきものでした。最近あまりにもあいまいであると考えられていました。

マシンインテリジェンスは、感情的な感知アルゴリズムに至るまで、空港での顔認識においていたるところにあります。機械は芸術作品を生み出した。法律上および医療上の助言を求めて、時には盗まれたソーシャルチャットボットを飼うことがあります。 GoogleのAIチームは最近、人間の翻訳速度の精度に近い結果を達成する新しい技術を使用して、Google Neural Machine TranslationシステムGNMTを開発したことを発表しました。 Googleが生産規模で機械翻訳と表現しているこれらの進歩は、人間の経験や知能だけでなく人間の能力を超えた、AIの迅速なリアルタイムの進歩を示すものです。 StanfordのAndrew NgとBaidu ResearchのChief Scientistは、20語ごとに95%の単語翻訳が間違っている可能性が高いと言い、99%はゲームの変更と言います。アンドリュー氏は最近のHBRの記事で、「典型的な人が1秒未満で精神的な仕事をすることができれば、現在または近い将来AIを使用して自動化することができます。

しかし、あなたは1秒間に100メートルを10 Usain Boltsで走らせることはできません

インフィニオンが構築したRubikのキューブは、2016年にRubikの立方体を半分(0.637秒)で物理的に操作して解くことができました。 100メートルのレースは、10秒のウサインボルトで1秒で決して行かないという証拠だった。 Sub1ロボットは、金融証券市場でミリ秒単位で取引されるトレーダーの自動アルゴリズムのように、人間がそのスピードで完了することができない場合があることを覚えていました。しかし、Sub1ロボットは、ドライバーレスの車のデモンストレーションとして設計されていました。また、優れた機械反応時間の可能性により、人間の虚弱や不安からより安全な運転を提供し、常に十分に応答します。

しかし、GoogleやAndrew NGなどは、今日もAIができないことがたくさんあることを強調しています。 これらの急速な発展は、企業や社会全体の個人的、社会的設定に、多数の自動化とインテリジェントなシステムを作り出しています。

ビジネスインテリジェンスとビジネス戦略のAIが登場する際にビジネスリーダーが認識しなければならないことには、サイバーセキュリティが注目されています。

革新と機械学習とサイバーセキュリティに対する「事実の変更」の脅威

私たちはたくさんのことをつなぎ始めています。私たちは多くのことを自動化し始めており、第4回産業革命にはサブテキストがあります。私たちが見てきたことは、Thinking MachineについてのAlan Turingの洞察のような、何年も何年もの時、時には一世紀前の考えを持っていることです。技術がそれらを実装するために利用可能になるまで、そして突然社会のようなジャンプが起こるまで、このステップは起こらない。

私たちは、これらのアイデアがたくさんあり、技術は非常に安くなっていると思うし、3D印刷、物事のインターネット、センサーの膨大な量を与えるセンサ学習ニーズ。したがって、突然安価なセンサーがすべて機械学習を可能にしています。

だから、これらすべてのイノベーションとアイデアが集まり、人々は「私は自分の携帯電話から暖房を制御できる」ことに興奮しています。私の反応は、「ちょっと待って、その情報はどこに保存されていますか?」です。彼らは「まあ安全です」と言いますが、それはグレースケールであり、白黒ではありません。

私たちはサイバーハッカーが実際に安全であるものをいくらか容易に侵入することについて聞き取り、読んでいますか?これは特に、インターネットの物事のセキュリティに関する問題です。なぜなら、私たちは突然多くのものを結びつけているからです。私の家は私がどこにいるかを知っていることは素晴らしいと思うかもしれませんが、他の多くの人が知っています。 それはトラッキングと同様に、機械学習とAIがこれにどのような影響を及ぼしているかのように、ランサムウェアを使用しているハッカーやホテルのゲストをロッキングしているホテルのゲストは、システムを解放するためにBitcoinの支払いを遠隔に要求しています。どのように私たちの会社の幹部はこれに対応する必要がありますか?

変更の脅威

何年も前、私たちは1970年代後半に指紋認識を開発しました。これは、1990年代初めまでに、統合された自動指紋識別システムに発展し、その後、多くのタイプの識別を組み合わせたバイオメトリクス分野の一部になりました。当時、機械で指紋を認識するのはすばらしかったですが、「もうキーは必要ありません」と言っても誰も興味を持っていませんでしたが、見えませんでした。 10年後、911が起こり、突然誰もが指紋認識を望んでいました。その期間にわたって、このバイオメトリック情報の全ては、デジタル情報としてどこかに格納される。それが起こるとすぐに、それは主な心配であるセキュリティではなく、コピー、移動、または削除することができます。誰かがデータにアクセスしてリンクを変更した場合、元の参照データが編集されている場合、どのようにあなたが誰であるかを証明するにはどうすればよいですか?

新刊「第4回産業革命人工知能を活用するための実践ガイド」から発想草案を抜粋 Palgrave macmillan、2017. Mark Skilton、Felix Hovespian

参考

http://www.huffingtonpost.com/professor-mark-skilton/impact-of-artificial-inte_b_14702160.html

深層学習ネットワークを使って小惑星を分類するプロジェクト

サンプルソース https://github.com/j3doucet/DBNN.NASA

DBNN.NASANASA WISEプロジェクトの光カーブデータで6000の既知の小惑星を訓練した深いニューラルネットワークを使って小惑星を分類するプロジェクトです。 私たちのプログラムは、新しく発見された小惑星の告知のためにマイナー惑星センターのウェブサイトを擦り取り、それらをWISEソースデータベースと相互参照し、それらをニューラルネットワークで分類します。 今後は、WISE画像データ上の深いニューラルネットワークを訓練して、小惑星の同時検出と分類を行うことで、このプロジェクトを拡張する予定です。

このプロジェクトは、小惑星の画像挑戦のニューロモルフィック研究を解決しています。 説明 DBNN.NASAは、ニューラルネットワークを使ってライトカーブに基づいて小惑星を分類するプロジェクトです。 DL4Jライブラリは、NASA WISEプロジェクトの光カーブデータを使って、6000の既知の小惑星に基づいて深いニューラルネットワークを訓練するために使用されました。

私たちのプログラムは、新しく発見された小惑星の通知のためにマイナーな惑星センターのウェブサイトを自動的に掻き集め、WISEソースデータベースの情報と相互参照して、ライトカーブデータを抽出し、それらをニューラルネットワークで分類することができます。 GUIは、最新の50小惑星の表、地球中心座標における小惑星の位置の地図、および動作中のニューラルネットワークの視覚化からなる。ユーザーはインターネットから新鮮なデータを取り込むか、ファイルから小惑星の参照を読み込むことができます。

今後は、WISE画像データ上のディープニューラルネットワーク小惑星の自動検出と分類のためのライトカーブを実行することで、このプロジェクトを拡張したいと考えています。

PROJECT INFORMATION

License: Apache License 2.0 (Apache-2.0) Source Code/Project URL: https://github.com/j3doucet/DBNN.NASA

RESOURCES Video - https://www.youtube.com/watch?v=_5a-Q4eLso4

参考

https://2015.spaceappschallenge.org/project/dbnnnasa/ https://2015.spaceappschallenge.org/challenge/neuromorphic-studies-asteroid-imagery/#projects

畳み込みニューラルネットワークを理解するための初心者向けガイド

f:id:miyamotok0105:20170305124437p:plain

前書き

畳み込みニューラルネットワーク。 生物学と数学の奇妙な組み合わせのように聞こえるかもしれませんが、これらのネットワークはコンピュータビジョンの分野で最も影響力のあるイノベーションの一部です。 Alex Krizhevskyが2005年のImageNet(基本的にはコンピュータビジョンの年次オリンピック)に勝利し、分類エラーの記録を26%から15%に落とし、神経ネットが目立つようになったのは2012年です。 それ以来、数多くの企業が深い学習を彼らのサービスの中核に使ってきました。 Facebookは自動的なタグ付けアルゴリズムのためにニューラルネットGoogleは写真検索、Amazonは商品の推奨、Pinterestは自宅のフィードパーソナライゼーション、Instagramは検索インフラストラクチャを使用しています。

しかし、これらのネットワークの古典的な、そして間違いなく最も一般的なユースケースは、画像処理のためのものです。画像処理の中で、これらのCNNを画像分類に使用する方法を見てみましょう。

問題

画像分類は、入力画像を取得し、クラス(猫、犬など)または画像を最も良く記述するクラスの確率を出力するタスクである。人間にとって、この認識の仕事は、生まれた瞬間から学ぶ最初のスキルの一つであり、成人として自然に、楽に来るものです。二度も考えなくても、私たちは、私たちの周囲の環境だけでなく、私たちを取り囲む物体を素早くシームレスに識別することができます。私たちがイメージを見るときや、私たちの周りの世界を見るときには、ほとんどの場合、シーンをすぐに特徴付けることができ、各オブジェクトにラベルを付けることができます。パターンを素早く認識し、事前の知識から一般化し、さまざまな画像環境に適応することができるこれらのスキルは、私たちの仲間のマシンと共有していないものです。

f:id:miyamotok0105:20170305124503p:plain

入力と出力

コンピュータが画像を見ると(画像を入力として)、ピクセル値の配列が表示されます。画像の解像度とサイズに応じて、32 x 32 x 3の数の配列が表示されます(3はRGB値を参照します)。ここでは、JPG形式のカラーイメージがあり、そのサイズは480 x 480であるとしましょう。代表的な配列は480 x 480 x 3です。これらの各数値には、0〜255の値が与えられます。その点のピクセル強度これらの数値は、画像分類を実行するときには意味がありませんが、コンピュータで使用できる唯一の入力です。アイデアは、コンピュータにこの数字の配列を与え、画像が特定のクラス(猫の場合は.80、犬の場合は.15、鳥の場合は.05など)の確率を表す数値を出力するということです。

コンピュータにしたいこと

ここで問題と入力と出力を知ったので、これにアプローチする方法を考えてみましょう。私たちがしたいのは、与えられたすべての画像を区別し、犬を犬にしたり、猫を猫にするユニークな特徴を見つけ出すことです。これは私たちの心の中で無意識に進行するプロセスです。犬の絵を見ると、足や足などの識別可能な特徴を持つ絵があれば、それを分類することができます。同様に、コンピュータは、エッジやカーブなどの低レベルのフィーチャを探し、一連の畳み込みレイヤを介してより抽象的なコンセプトを構築することによって、画像の分類を実行することができます。これは、CNNが行うことの一般的な概要です。詳細についてみましょう。

生物学的なつながり

 しかし、まず、少し背景。あなたが最初に畳み込みニューラルネットワークという言葉を聞いた時、あなたは神経科学や生物学に関係するものを考えていたかもしれません。並べ替えCNNsは視覚野から生物学的なインスピレーションを受けます。視覚野は、視野の特定領域に敏感な細胞の小さな領域を有する。このアイデアは、1962年のHubelとWieselの魅力的な実験(ビデオ)で拡張され、脳内のいくつかの個々の神経細胞が特定の向きのエッジの存在下でのみ反応(または発火)することを示した。例えば、いくつかのニューロンは垂直エッジにさらされたときに発火し、いくつかのニューロンは水平または斜めのエッジを示すときに発火する。 HubelとWieselは、これらのニューロンのすべてが円柱状の構造で編成されており、一緒に視覚的知覚を生み出すことができることを発見しました。特定のタスク(特定の特性を探している視覚野の神経細胞)を持つシステム内の特殊なコンポーネントのこの考え方は、マシンが同様に使用するものであり、CNNの基礎となります。

構造

詳細に戻る。 CNNが行うことの詳細な概要は、画像を取得し、一連の畳み込み、非線形、プーリング(ダウンサンプリング)、完全に接続されたレイヤーを渡し、出力を得ることです。先に述べたように、出力は単一のクラス、または画像を最もよく表すクラスの確率になります。今、難しい部分は、これらのレイヤのそれぞれが何をしているかを理解することです。だから、最も重要なものに入ってみましょう。

第1層 - 数学の部分

CNNの最初のレイヤーは、常に畳み込みレイヤーです。あなたが覚えていることを確認するための最初のことは、このconvへの入力(私はその略語をたくさん使っています)の層が何であるかです。前述のように、入力は32 x 32 x 3のピクセル値の配列です。今、コンバージョンレイヤーを説明する最善の方法は、画像の左上に輝く懐中電灯を想像することです。この懐中電灯が照らす光が5×5の領域をカバーしているとしましょう。そして今、この懐中電灯が入力画像のすべての領域を滑っていると想像してみましょう。機械学習の用語では、この懐中電灯はフィルター(またはニューロンまたはカーネルと呼ばれることもあります)と呼ばれ、輝く領域を受容場と呼びます。現在、このフィルタは数値の配列でもあります(数値は重みまたはパラメータと呼ばれます)。非常に重要な点は、このフィルタの深さは入力の深さと同じでなければならないということです(このことは数学が機能することを保証します)。したがって、このフィルタの寸法は5 x 5 x 3です。例えばフィルタが入っている最初の位置です。それは左上隅になります。フィルタが入力画像の周りを摺動または畳み込むと、フィルタの値に画像の元のピクセル値(別名計算要素の乗算)が乗算されます。これらの乗算はすべて合計されます(数学的に言えば、これは合計75回の乗算になります)。だからあなたは一つの番号を持っています。この番号は、フィルタが画像の左上にあるときを表しています。ここでは、入力ボリューム上のすべての場所についてこのプロセスを繰り返します。 (次のステップは、フィルタを1単位だけ右に移動し、次に1ずつ右に移動するなど)。入力ボリューム上のすべてのユニークな場所によって番号が生成されます。フィルタをすべての場所にスライドさせた後で、残っているものが28×28×1の数の配列であることがわかります。これをアクティベーションマップまたはフィーチャマップと呼びます。あなたが28×28アレイを得る理由は、5×5フィルターが32×32入力画像に収まる784の異なる場所があることです。これらの784個の数字は28×28アレイにマッピングされています。

f:id:miyamotok0105:20170305124531p:plain

(クイックノート:上記の画像も含めて、マイケル・ニールセンの “Neural Networks and Deep Learning"という素晴らしい本の中から使用された画像もあります。

ここでは、1つではなく2つの5 x 5 x 3フィルタを使用するとします。それで、私たちの出力量は28 x 28 x 2になります。より多くのフィルタを使うことで、空間次元をより良く保存することができます。数学的には、これは畳み込みレイヤーで起こっていることです。

第1層 - 高レベルの視点

しかし、このコンボルーションが実際に高レベルからやっていることについて話しましょう。これらのフィルタのそれぞれは、フィーチャ識別子と考えることができる。私がフィーチャーを言うとき、私は直線エッジ、単純な色、および曲線のようなものについて話しています。すべての画像が互いに共通する最も簡単な特性について考えてみましょう。私たちの最初のフィルターが7 x 7 x 3で、カーブ検出器になるとしよう。 (このセクションでは、フィルタが3単位の深さであり、簡単にするために、フィルタと画像の最上部の奥行きスライスのみを考慮していないことを無視してみましょう。)カーブ検出器として、フィルタはピクセル構造を持ちます。カーブの形をしている領域に沿って数値が高くなるようにしてください。 f:id:miyamotok0105:20170305124726p:plain

さて、これを数学的に可視化することに戻りましょう。 このフィルタを入力ボリュームの左上隅に配置すると、その領域のフィルタとピクセル値の乗算が計算されます。 次に、分類したい画像の例を見て、フィルタを左上隅に置いてみましょう。

f:id:miyamotok0105:20170305124809p:plain

我々がしなければならないのは、フィルタの値に画像の元のピクセル値を掛けることです。

f:id:miyamotok0105:20170305124818p:plain

基本的に、入力画像で、このフィルタが表す曲線にほぼ似た形があれば、合計されたすべての乗算は大きな値になります!フィルターを動かすとどうなるか見てみましょう。

f:id:miyamotok0105:20170305124843p:plain

値ははるかに低いです!これは、画像セクションにカーブ検出器のフィルタに応答したものがなかったためです。このconvレイヤの出力はアクティブ化マップです。したがって、1つのフィルタコンボリューションの単純なケース(フィルタがカーブ検出器である場合)では、アクティベーションマップには、画像内にカーブが存在する可能性の高い領域が表示されます。この例では、28 x 28 x 1アクティベーションマップの左上の値は6600になります。この高い値は、入力ボリュームにフィルタを有効にする何らかのカーブが存在する可能性が高いことを意味します。入力ボリューム内にフィルタがアクティブになった(またはより単純に、元の画像のその領域にカーブがない)何もないので、アクティブ化マップの右上の値は0になります。これは1つのフィルタにすぎないことに注意してください。これは、外向きと右向きにカーブするラインを検出するフィルタに過ぎません。左または真っ直ぐなエッジにカーブするラインのための他のフィルタを持つことができます。フィルタが多いほど、アクティベーションマップの深度が大きくなり、入力ボリュームについての情報が多くなります。

免責事項:このセクションで説明したフィルタは、畳み込み中に起こる数学を記述することを主な目的として単純化されています。下の図には、訓練されたネットワークの最初のコンバージョンレイヤのフィルタの実際の視覚化の例がいくつか表示されています。それにもかかわらず、主要な議論は変わらない。第1層のフィルタは、入力画像の周りを畳み込み、探している特定のフィーチャが入力ボリュームにあるときに、「アクティブにする」(または高い値を計算する)。

f:id:miyamotok0105:20170305124913p:plain

(クイックノート:上記の画像は、Andrej KarpathyとJustin Johnsonが教えてくれたスタンフォードのCS 231Nコースからのもので、CNNの理解を深める方にお勧めします)

ネットワークを通じてより深く進む

現在の伝統的な畳み込みニューラルネットワークアーキテクチャでは、これらのconvレイヤ間に散在する他のレイヤが存在します。 私はそれらを読んで、その機能と効果を理解することに関心を持つ人を強く奨励しますが、一般的な意味では、ネットワークの頑健性を向上させ、過大適合をコントロールするのに役立つ非線形性と次元の保護を提供します。 古典的なCNNアーキテクチャは、このようになります。 f:id:miyamotok0105:20170305124947p:plain

しかし、最後のレイヤーは重要なものですが、後で説明します。一歩踏み込んで、これまでに学んだことを見直しましょう。最初のコンバレイヤーのフィルターが検出するように設計されているものについて話しました。エッジやカーブなどの低レベルのフィーチャを検出します。想像されるように、画像が物体の一種であるかどうかを予測するためには、手や足や耳のようなより高いレベルの特徴を認識できるネットワークが必要です。最初のコンバージョンレイヤの後にネットワークの出力が何であるかを考えてみましょう。これは、28×28×3のボリューム(3つの5×5×3のフィルタを使用すると仮定)です。別のコンバレイヤを通過すると、最初のコンバレイヤの出力が2番目のコンバレイヤの入力になります。さて、これは視覚化するのが少し難しいです。最初のレイヤーについて話していたとき、入力は元の画像に過ぎませんでした。ただし、第2のconvレイヤーについては、入力は最初のレイヤーの結果であるアクティブ化マップです。したがって、入力の各レイヤーは、基本的に、ある低レベルのフィーチャが現れる元のイメージ内の位置を記述しています。今度は、その上に複数のフィルタを適用すると(第2のconvレイヤを通過させる)、出力はより高いレベルの機能を表すアクティベーションになります。これらのフィーチャのタイプは、半円(曲線と直線エッジの組み合わせ)または四角形(いくつかの直線エッジの組み合わせ)です。ネットワークを通ってより多くのコンバージョン層を通過すると、ますます複雑な機能を表すアクティベーションマップが得られます。ネットワークの終わりには、イメージに手書きがあるときにアクティブになるフィルタ、ピンクのオブジェクトなどが表示されたときにアクティブになるフィルタがあります。ConvNets、Matt Zeiler、Rob Fergusのフィルタを視覚化する方法について詳しくは、トピックを議論する優れた研究論文です。 Jason Yosinskiには、YouTube上で素晴らしいビジュアル表現を提供する動画もあります。注目すべきもう一つの興味深い点は、ネットワークに深く入り込むにつれて、フィルタは受容可能な領域が大きくなり始めたことになります。つまり、元の入力ボリュームの広い領域からの情報を考慮することができますより広い領域のピクセル空間に対してより応答性が高いということです)。

完全に接続されたレイヤー

これらの高レベルの機能を検出できるようになったので、ケーキのアイシングは、ネットワークの最後に完全に接続されたレイヤーを取り付けることです。このレイヤーは基本的に入力ボリューム(出力がconvまたはReLUまたはそれに先行するプールレイヤーのものであれ)を取り、N次元ベクトルを出力します。ここで、Nはプログラムが選択しなければならないクラスの数です。たとえば、桁の分類プログラムが必要な場合、10桁があるため、Nは10になります。このN次元ベクトル内の各数字は、あるクラスの確率を表す。例えば、数字分類プログラムの結果のベクトルが[0 .1 .1 .75 0 0 0 0 .05]である場合、これは画像が1である確率は10%であり、画像が1である確率は10%であり、画像は2、画像が3である確率は75%、画像が9である確率は5%です(サイドノート:出力を表現できる他の方法もありますが、私はsoftmaxアプローチを示しています) )。この完全に接続されたレイヤの仕組みは、前のレイヤの出力(高レベルのフィーチャのアクティベーションマップを表す必要があります)を確認し、特定のクラスと最も関連性の高いフィーチャを特定することです。例えば、プログラムがいくつかの画像が犬であると予測している場合、それは足または4脚などの高レベル特徴を表す活性化マップにおいて高い値を有する。同様に、プログラムがいくつかの画像が鳥や羽などの高度な機能を表すアクティベーションマップには高い値が設定されます。基本的に、FCレイヤーは特定のクラスと最も強く相関する高レベルのフィーチャを調べ、特定のウェイトを持っているため、ウェイトと前のレイヤーの間の積を計算すると、異なるクラスの正しい確率が得られます。

f:id:miyamotok0105:20170305125019p:plain

トレーニング(AKA:この内容を実現するもの)

さて、これは私が意図的に言及していないニューラルネットワークの1つの側面であり、おそらく最も重要な部分です。あなたが読んでいる間に多くの質問があったかもしれません。最初のコンバレイヤのフィルタは、エッジとカーブを探すためにどのように知っていますか?完全に接続されたレイヤーは、どのようなアクティベーションマップを見るべきかを知っていますか?各レイヤーのフィルターはどのような値を持つのかを知っていますか?コンピュータがフィルタ値(または重み)を調整できる方法は、バックプロパゲーションと呼ばれるトレーニングプロセスです。

バックプロパゲーションに入る前に、最初に一歩前進して、ニューラルネットワークが働くために必要なものについて話をする必要があります。私たちすべてが生まれた瞬間、私たちの心は新鮮でした。私たちは、猫や犬や鳥が何であるかを知らなかった。同様の方法で、CNNが始まる前に、重みまたはフィルタ値がランダム化される。フィルタは、エッジとカーブを探すことを知らない。上位層のフィルタは、足やくちばしを探すことを知らない。しかし、年を重ねるにつれて、私たちの両親や先生たちは私たちにさまざまな絵やイメージを見せて、それに対応するラベルをくれました。イメージとラベルを与えられたこの考えは、CNNが習得するトレーニングプロセスです。あまりにもそれに入る前に、私たちは犬、猫、そして鳥の何千もの画像を持っている訓練セットを持っていると言いましょう。そして、それぞれの画像にはその絵が何であるかのラベルがあります。 Backpropに戻る。

したがって、バックプロパゲーションは、順方向パス、損失関数、逆方向パス、および重み更新の4つの異なるセクションに分けることができる。往路ではトレーニング画像を撮りますが、これは32 x 32 x 3の数値の配列であり、ネットワーク全体に渡って渡します。最初のトレーニング例では、すべての重みまたはフィルタ値がランダムに初期化されているため、出力は[.1 .1 .1 .1 .1 .1 .1 .1 .1]のようになります。特に任意の数に優先権を与えない出力。現在の重みを持つネットワークは、それらの低レベルの特徴を探すことができないか、または分類が何であるかについて合理的な結論を出すことができない。これはバックプロパゲーションの損失機能部分に行きます。私たちが今使っているのは、トレーニングデータです。このデータには、画像とラベルの両方があります。たとえば、入力された最初のトレーニング画像が3であったとしましょう。画像のラベルは[0 0 0 1 0 0 0 0 0 0]です。損失関数は多くの異なる方法で定義できますが、共通のものはMSE(平均2乗誤差)です。これは1/2倍(実際の予測値)の2乗です。

f:id:miyamotok0105:20170305125044p:plain

変数Lがその値と等しいとしましょう。 あなたが想像しているように、トレーニング画像の最初のカップルの損失は非常に高くなります。 今、直感的に考えてみましょう。 私たちは、予測ラベル(ConvNetの出力)がトレーニングラベルと同じになるようにしたいと考えています(これはネットワークが予測されたことを意味します)。そこに到達するためには、損失の量を最小限に抑えたい 我々は持っています。 これを微積分の最適化問題として視覚化すると、ネットワークの損失(またはエラー)に最も直接的に寄与した入力(この場合は重み)を見つける必要があります。 f:id:miyamotok0105:20170305125106p:plain

これは、dL / dWの数学的に等価であり、Wは特定の層での重みである。 さて、私たちがやりたいことは、どのウェイトが損失に最も寄与しているかを判断し、損失を減らすようにウェイトを調整する方法を見つけることです。 この微係数を計算したら、最後に重み更新であるステップに進みます。 これは、フィルタのすべてのウェイトを取得し、グラディエントの方向に変化するように更新します。

f:id:miyamotok0105:20170305125136p:plain 学習率は、プログラマによって選択されるパラメータである。 学習率が高いということは、体重の更新においてより大きな措置が取られ、したがって、モデルが最適な体重の集合に収束するのにかかる時間が短くてもよいことを意味する。 しかし、あまりにも高い学習率は、大きすぎて最適点に到達するのに十分な正確さではないジャンプをもたらす可能性があります。

フォワードパス、ロス関数、バックワードパス、およびパラメータ更新のプロセスは、一般に1エポックと呼ばれます。プログラムは、トレーニング画像の各セット(一般的にバッチと呼ばれます)ごとに一定数のエポックでこのプロセスを繰り返します。最後のトレーニングの例でパラメータの更新が完了したら、ネットワークのトレーニングを十分に行い、レイヤの重みが正しく調整されるようにしてください。

テスト

最後に、私たちのCNNが動作しているかどうかを確認するために、画像とラベルのセットが異なります(トレーニングとテストの間に2倍にすることはできません)。出力を地上真理と比較し、ネットワークが機能しているかどうかを確認します。

企業がCNNを使用する仕組み

データ、データ、データこの魔法の4文字の単語をたくさん持っている企業は、競争の残りの部分に固有の利点を持っているものです。ネットワークに与えることができる訓練データが多くなればなるほど、練習反復の回数が増え、ウェイト更新が多くなり、ネットワークに合わせて調整するほうが生産に向かうことになります。 Facebook(およびInstagram)は現在所有している10億人のユーザーのすべての写真を使用でき、Pinterestはそのサイトにある500億ピンの情報を使用でき、Googleは検索データを使用でき、Amazonは数百万の製品毎日買っています。そして今、彼らはそれをどのように使用するのかを知っています。

免責事項

この投稿はCNNを理解するのに適しているはずですが、決して包括的な概要ではありません。このポストで議論されていないことには、フィルタのサイズ、ストライド、パディングなどのネットワークのハイパーパラメータと同様に、非線形およびプーリング層が含まれます。ネットワークアーキテクチャ、バッチ正規化、消失勾配、ドロップアウト、初期化手法、非凸最適化、偏り、損失関数の選択、データ増大、正則化法、計算上の考慮、逆伝播の修正などのトピックも議論されていませんでした。

参考

私は現在UCLAで学んでいる2年生の学部生です。 私はコンピュータサイエンスを専攻しながら、バイオインフォマティクスでマイナーを追求しています。 私はボストン大学で2件、ワシントンD.C.にある米国海軍研究所で2件の研究インターンシップを受けています。 私はコンピュータサイエンス機械学習に関する知識をヘルスケア分野に適用することに情熱を持っています。そこで私たちは本当に医者を助け、患者を世話するためのより良いソリューションを設計することができます。 私が行ったサイド・プロジェクト(ニューラル・ネット、強化学習、Kaggle stuff、スポーツなど)については、私のgithubをチェックしてください。 2017年の夏に積極的にインターンシップを探していますが、コラボレーションの余地があると思ったら私に連絡してください。

米国海軍研究所でのインターンってどんなんなんだろう。。。

https://adeshpande3.github.io/adeshpande3.github.io/A-Beginner’s-Guide-To-Understanding-Convolutional-Neural-Networks/