pathNetの論文を読むにはA3Cくらいはわかってる必要がありそう。図１を見るとニューラルネットの経路を使いまわせる雰囲気に見える。

抜粋

人工総合知能（AGI）では、巨大な忘却を起こすことなく、複数のユーザーが同じ巨大なニューラルネットワークを訓練し、パラメータの再利用が可能であると効率的です.PathNetはこの方向の第一歩です。ニューラルネットワークアルゴリズムは、ニューラルネットワークに埋め込まれたエージェントを使用します。このタスクは、ネットワークのどの部分を新しいタスクに使用するかを発見することです。エージェントは、バックプロパゲーションアルゴリズムの順方向および逆方向パスによって使用および更新されるパラメータのサブセットを決定するネットワークを通る経路（ビュー）である。学習中、トーナメント選択遺伝的アルゴリズムを使用して、複製および突然変異のためのニューラルネットワークを通る経路を選択する。経路適応度は、コスト関数に従って測定されたその経路の性能である。私たちは成功した伝達学習を実証しています。タスクA上で学んだapathに沿ってパラメータを固定し、タスクBに対する新しいパスの集合を再展開することにより、タスクBは、スクラッチまたは微調整後に学習されるよりも速く学習することができる。バイナリMNIST、CIFAR、SVHN監督学習分類タスク、およびAtariおよびLabyrinth補強学習タスクのセットについて、ポジティブ転送が実証され、PathNetsがニューラルネットワークトレーニングに一般的に適用可能であることが示唆されました。最後に、PathNetは、並列非同期強化学習アルゴリズム（A3C）の超パラメータ選択の堅牢性を大幅に向上させます。

キーワード

巨大なネットワーク、経路進化アルゴリズム、進化と学習、継続学習、伝達学習、マルチタスク学習、基底神経節

1.はじめに

人工総合情報のためのもっともらしい要求は、多くのユーザが多数のタスクで同じ巨人ネットワークを訓練することを要求されることである。このネットワークは、各タスクの最初から学習するのではなく、既存の知識を再利用できるため、ネットワークが経験を積む最も効率的な方法です。これを達成するために、我々は、巨大ネットのthaachユーザーに、可能な限り効率的にユーザー定義のタスクを学習させることであるエージェントの集まりを与えることを提案する。エージェントは、ニューラルネットワーク内のアクションを実行することによって、ニューラルネットワークの環境で既存のパラメータを再利用する最良の方法を学習します。他のユーザのタスクを学習したり、転送が可能であればパラメータを共有したり、干渉が重大な場合には別のパラメータを更新することを学ぶ他のエージェントと並行して作業する必要があります。各エージェントは任意の複合強化学習アルゴリズムによって制御できます。可能な限り単純な「エージェント」、進化の単位[4]。上記のAGIのフレームワークは、転送学習[22]、継続学習[16]、マルチタスク学習[2]の側面を含む。私たちの研究は、著者が “情報を吸収するニューラルネットワークの能力はそのパラメータの数によって制限されている"と書いている激しい論文「激しい大規模なニューラルネットワーク」と動機づけをしている[19]。標準的なニューラルネットワークが純粋に訓練されていれば、訓練コストはモデル幅で二次的にスケールされるが、PathNetは理論的にはネットワーク幅に対して一定の計算速度を有するのに対して、大規模ネットワークの固定サイズサブセットのみがいつでもより多くの訓練が必要でないことを保証しない場合もあります）。我々の作業は、ファブリック内のモジュール間の接続強度が学習される「Convolutional Neural Fabrics」にも関連するが、PathNetとは異なり、ファブリック全体が常に使用される[18]。

本稿では、転送、継続、およびマルチタスク学習を明示的にサポートする新しい学習アルゴリズムPathNetを紹介します。図1は、動作中のアルゴリズムを示しています。第1のタスクAはポンであり、第2のタスクBはエイリアンである。両方ともそれぞれ80Mタイムステップの間連続して訓練される。図のボックス1の紫色の線は、ポン訓練の開始時にニューラルネットワークモデルを介して64個のランダムに初期化されたすべての経路を示す。トーナメント選択遺伝的アルゴリズムを使用して経路を進化させ、適応度評価の際に強化学習アルゴリズムを用いた勾配降下によっていくつかのゲームエピソードについて経路を訓練する。したがって、進化と学習は同時に進化しており、勾配降下を適用して体重とバイアスのパラメータを変化させるべきである進化的指導を行っている。ボックス2は、パフォーマンスが向上するにつれて集団が収束することを示している（多くの経路が互いに重なっている）。完璧なパフォーマンスが達成されると、母集団はボックス3に示す単一パスに収束する。ボックス4は、収束した単一経路は、トレーニングセッションの終了まで持続することを示す。この時点で、タスクはタスクB（エイリアン）に切り替わり、Pongの最適パスは「固定」になります。つまり、そのパス上のモジュールの重みとバイアスが固定されます。ボックス5は、明るい青色の経路の新規にランダムに初期化された集団に沿って濃い赤色の線として固定された経路を示す。経路の新しい集団は進化し、ボックス8によってエイリアンに収束する.160Mステップの後、エイリアンの最適経路は固定され、ボックス9の青色の線で示される。経路ネットワークは、スカフォールドおよび任意の所望の勾配ベースの学習アルゴリズムをニューラルネットワークのパラメータの限定されたサブセットに向けて実行し、その後、これらのパラメータを学習した後に、それは壊滅的な忘却が設計によって防止されるという点で、漸進的なニューラルネットワークに似ている[17]。進歩的なネットワークでは、転送を決定するトポロジは学習されたものよりもハードワイヤードであり、第1のニューラルネットワークはソースタスクに対して訓練され、第2のニューラルネットワークは重みを固定した第1のニューラルネットワークから入力を受け取るターゲットタスクに対して訓練される。 PathNetsallow元の「列」とそれ以降の「列」との関係を展開します。ここでは列はonedeepニューラルネットワークです。

PathNetの2つの例が調査され、PathNetが確率的な勾配降下によって訓練された2つの教師付き学習タスクの連続実施と、PathNetがAsynchronous Advantage Actor-Critic（A3C）によって訓練された強化学習タスク（Atariand Labyrinthゲーム） A3Cは、効率的に分配された強化学習アルゴリズムであり、複数のCPU上で実行される。 64非同期的に更新された作業者は、単一のネットワークのパラメータを同時に共有し更新する[12]。 PathNetの概念は、ダーウィンの神経ダイナミクスの枠組みの中で最初に考案されたものであるが、これは、最初のタスクで初めてトレーニングされた後の単一の固定パス制御に比べて、進化的アルゴリズムが脳内でどのように実行されるのかを想定している[5]。しかし、その元の仕事では、経路のトポロジーと重みの両方が進化し、勾配降下学習もなかった[4]。組み合わせ最適化問題に関する標準的な遺伝的アルゴリズムと比較することができました。ここでは、A3Cの性能と転送学習のための確率的勾配降下を示す。

2.方法

2.1 PathNetのアーキテクチャ

PathNetは、各層がM個のモジュールからなる層を有するモジュール式深層ニューラルネットワークである。各モジュール自体は、ここでは畳み込みまたは線形のニューラルネットワークであり、その後に伝達関数が続く。整流された線形ユニットがここで使用される。各層について、その層のモジュールの出力は、次の層の能動的なモジュールに渡される前に加算される。現在評価中の経路遺伝子型に存在する場合、モジュールはアクティブです（下記参照）。 1層当たり最大N個の別個のモジュールが経路内に許容される（典型的にはN = 3または4）。各タスク（例えば、Atariゲーム）は、値の機能の読み出しとポリシーの読み込みを持っています（[12]を参照してください）使用されたA3Cアルゴリズムの完全な記述については）。

2.2経路の進化：直列および並列

P遺伝子型（経路）は無作為に初期化され、各遺伝子型は多くてN×L行列の整数であり、その経路の各層の活性なモジュールを記述する。直列監視下の実装では、バイナリトーナメント選択アルゴリズムが以下のように直列に実施される。ランダムな遺伝子型が選択され、その経路はT期のために訓練され、その適応性はその訓練期間を誤った負の分類である。次に、別のランダムジェノタイプが選択され、その経路はTエポックのために訓練される。勝ち抜かれた経路の遺伝子型のコピーが、通過経路遺伝子型を上書きする。当選した経路の遺伝子型のコピーは、1 / [N×L]の確率で要素を別々に選択し、[-2、2]の範囲の整数をそれに加えて突然変異させる。 A3C（強化学習）のケースでは、64のすべての遺伝子型が64人の労働者のそれぞれに1つずつ並行して評価されている。したがって、労働者によるパラメータの同時更新は、すべての作業者がすべてのパラメータを更新する標準的なA3Cアルゴリズムとは対照的である。遺伝子型の適合度は、その遺伝子型の経路を使用している労働者がTエピソードにわたって累積した戻り値である。労働者が評価している間、共有フィットネスキットに大きな負のフィットネスを書いて、評価されるまで、遺伝子型がトーナメントに勝つことはありません。作業者がTエピソードを終えると、Bは他のランダムな遺伝子型を選択し、それらの遺伝子型のいずれかが少なくともそれ自身の適合度を戻しているかどうかをチェックする。少なくとも1つがあれば、最も適合する遺伝子型は現在の作業者の遺伝子型を上書きし、上記。他の労働者が、より高い適合性を有する遺伝子型を有していない場合、その労働者は遺伝子型を所有しており、次いで、労働者は、その遺伝子型を再評価する。

2.3転送学習のパラダイム

タスクAが一定の期間にわたって、または何らかのエラー閾値に達するまで訓練されると、ベストフィット経路は固定され、そのパラメータは変更不可能であることを意味する。最適なパスにない他のすべてのパラメータは、再初期化されます。私たちは、再初期化を行わないと、パフォーマンスがオフラインチューニングを超えないことを確認しました。 A3Cのケースでは（監視された学習ケースではなく）元のベストフィットパスウェイは、ネットワークのフォワードパスの間に、新しいパスウェイに加えて常にアクティブですが、そのパラメータは後方パスによって変更されません。次に、ランダムな経路の新しいセットが初期化され、タスクBで進化/訓練されます。監視設定と強化設定の両方で、pathNetは2つの代替設定と比較されます：ターゲットタスクが新しく学習される独立学習制御と、第2のタスクは、第1のタスクを学習したのと同じ経路で学習される（ただし、新しい値の機能とポリシーの読み出しがある）。

f:id:miyamotok0105:20170315140318p:plain 図1：無作為に初期化された経路の集団（ボックス1の紫色の線）は、タスクA、Pongを学習しながら進化しています。訓練の終了時に、最良の経路が固定され（ボックス5の暗赤色の線）、タスクBのための新たな経路の集団（ボックス5の明るい線）が生成される。この母集団は、次にエイリアンで訓練され、エイリアンに進化したので、訓練の最後に固定され、ボックス9に濃い青色の線で示されている。

f:id:miyamotok0105:20170315140538p:plain 図2：PathNetは、AtariとLabyrinthのゲームを学習するために使用されます。各レイヤーには、10層（または時には15層）のモジュールが4層のネットワークで構成されています。最初の3つのレイヤのモジュールは、モジュールごとに8つのカーネル（緑色のボックス）、カーネルのサイズ（8,4,3）、および第1から第3のレイヤーまでのストライド（4,2,1）を持つ畳み込み2Dカーネルです。最終的な層は、それぞれ50ニューロンの不連続線状層（紫色の箱）からなる。各モジュールの後に整流された線形ユニットがある。次のレイヤーのモジュール（青いボックス）に渡される前に、フィーチャマップが合計されます。典型的には、1層あたり4モジュールの最大値が経路に含まれることを許されます（赤い枠で示されています）。そうでなければ進化は学習によって調整できるパラメータの数を増やすことによって適応度を向上させる。