学習を学習するディープラーニングについて

ご察しの通り普通にこういうのはやってる人がいるわけですね。 この分野は非常に興味深いです。


強化学習を用いたニューラルネットワークアーキテクチャの設計(Designing Neural Network Architectures using Reinforcement Learning)

https://arxiv.org/abs/1611.02167 現在、畳み込みニューラルネットワーク(CNN)アーキテクチャを設計するには、人間の専門知識と労力の両方が必要です。新しいアーキテクチャは慎重な実験によって手作りされたり、既存のネットワークの一部から修正されています。与えられた学習課題に対して高性能なCNNアーキテクチャを自動的に生成する強化学習に基づくメタモデリング手法を提案する。学習エージェントは、ε-greedy探査戦略と経験再生を用いたQ-learningを使用してCNN層を順次選択するように訓練される。エージェントは、可能なアーキテクチャの大規模ではあるが有限の空間を探索し、学習タスクのパフォーマンスを向上させて設計を繰り返し検出します。画像分類ベンチマークでは、エージェントの設計したネットワーク(標準コンボルーション、プーリング、完全接続レイヤのみで構成)は、同じレイヤタイプで設計された既存のネットワークを凌駕し、より多くを使用する最先端の方法複雑なレイヤータイプ。我々はまた、画像分類タスクに関するネットワーク設計のための既存のメタモデリング手法を凌駕する。

強化学習を用いたニューラルアーキテクチャ検索(Neural Architecture Search with Reinforcement Learning)

https://github.com/arXivTimes/arXivTimes/issues/23 ニューラルネットワークは、画像、音声、自然言語の理解において、多くの困難な学習課題に対してうまく機能する、強力で柔軟なモデルです。彼らの成功にもかかわらず、ニューラルネットワークはまだ設計が難しいです。本稿では、再帰的なネットワークを使用してニューラルネットワークのモデル記述を生成し、このRNNを強化学習で学習させて、検証セット上に生成されたアーキテクチャの期待精度を最大化する。CIFAR-10データセットでは、最初から始めて、私たちの方法は、テストセットの正確さに関して人間が発明したアーキテクチャに匹敵する斬新なネットワークアーキテクチャを設計できます。当社のCIFAR-10モデルは、3.65のテストエラーレートを達成しています。これは、類似のアーキテクチャスキームを使用した従来の最先端モデルよりも0.09%優れ、1.05倍高速です。

強化学習を学ぶ(Learning to reinforcement learn)

https://arxiv.org/abs/1611.05763 近年、深層強化学習(RL)システムは、多数の困難なタスク領域において超人的な性能を達成している。しかし、そのようなアプリケーションの大きな制限は、膨大な量のトレーニングデータに対する要求です。したがって、重要な現在の目的は、新しいタスクに迅速に適応できる深層RL方法を開発することである。本研究では、この課題に対する新しいアプローチを紹介します。これは深層メタ強化学習と呼ばれます。これまでの研究では、再帰的なネットワークは完全に監視された状況でメタ学習をサポートできることが示されています。このアプローチをRL設定に拡張します。出現するのは、1つのRLアルゴリズムを使用して訓練されたシステムであり、その反復動力学は第2の非常に別個のRL手順を実装するシステムである。この第2の学習されたRLアルゴリズムは、元のアルゴリズムとは任意の点で異なっていてもよい。重要なのは、学習されているため、トレーニングドメインの構造を利用するように構成されていることです。これらの点を一連の7つの概念実証実験で解凍します。それぞれの実験で深層メタ-RLの重要な側面が検証されます。我々は、アプローチの拡張とスケールアップの見通しを検討し、神経科学にとっての潜在的に重要な影響を指摘する。

大規模なニューラルネットワーク:疎なゲート混合エキスパート層(Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer)

https://arxiv.org/abs/1701.06538 情報を吸収するニューラルネットワークの能力は、そのパラメータの数によって制限される。理論的には、計算量が比例して増加することなくモデル容量を劇的に増加させる方法として、ネットワークの一部が例として有効である条件付き計算が提案されている。しかし、実際には、アルゴリズム上およびパフォーマンス上の大きな課題があります。この作業では、これらの課題に対処し、最終的に現代GPUクラスタでの計算効率のわずかな損失だけで、モデル容量の1000倍を超える条件付き計算の約束を実現します。我々は、数千のフィードフォワードサブネットワークで構成されたまばらにゲートされたMixed-of-Expertsレイヤー(MoE)を導入します。訓練可能なゲーティングネットワークは、各例で使用するこれらの専門家の疎結合を決定します。私たちは、モデリング能力とトレーニングコーパスで利用できる膨大な知識を吸収するためにモデル能力が重要な言語モデリング機械翻訳のタスクにMoEを適用します。本発明者らは、積み重ねられたLSTM層間に畳み込まれて1370億個のパラメータを有するMoEが適用されるモデルアーキテクチャを提示する。大規模な言語モデリング機械翻訳ベンチマークでは、これらのモデルは、最少の計算コストで最先端のものよりも優れた結果を達成します。

畳み込みニューラルファブリック(Convolutional Neural Fabrics)

https://arxiv.org/abs/1606.02492 CNNの成功にもかかわらず、与えられたタスクに最適なアーキテクチャを選択することは未解決の問題です。 単一の最適なアーキテクチャを選択することを目指すのではなく、指数関数的に多数のアーキテクチャを組み込んだ「ファブリック」を提案します。 ファブリックは、異なるレイヤー、スケール、およびチャネルでレスポンスマップを疎密なローカル接続パターンで接続する3Dトレリスで構成されています。 ファブリックの唯一のハイパーパラメータは、チャネルとレイヤの数です。 個々のアーキテクチャはパスとしてリカバリできますが、ファブリックはすべての組み込みアーキテクチャをまとめてアンサンブルし、パスが重なる場所で重みを共有することもできます。 パラメータは、バックプロパゲーションに基づく標準的な方法を使用して学習することができます。コストは、ファブリックのサイズに比例して増加します。 我々は、MNISTとCIFAR10の画像分類、およびPart Labelsデータセットのセマンティックセグメンテーションのための最先端技術と競合するベンチマーク結果を提示します。

プログレッシブニューラルネットワーク(Progressive Neural Networks)

https://arxiv.org/abs/1606.04671 複雑な一連のタスクを解決することを学ぶ - 転送を活用し、致命的な忘却を回避することは、人間のレベルの知性を達成する上での主要な障害です。 プログレッシブネットワークアプローチは、この方向への一歩を踏み出しています。彼らは忘れていなくて、以前学習した機能との横方向の接続を介して、前の知識を活用することができます。 我々は、このアーキテクチャを幅広い強化学習タスク(Atariおよび3D迷路ゲーム)で広範囲に評価し、プレトレーニングおよび精密化に基づいて一般的なベースラインを上回ることを示します。 新規の感度尺度を用いて、学習は、学習された方針の低レベル感覚および高レベル制御層の両方で起こることを実証する。

ソース https://github.com/synpon/prog_nn

深層強化学習による継続的な制御(Continuous control with deep reinforcement learning)

Deep Q-Learningの成功の根底にあるアイデアを、継続的なアクションドメインに適応させます。 我々は、連続的な行動空間上で動作することができる決定論的な政策勾配に基づく、俳優 - 評論家、モデルフリーのアルゴリズムを提示する。 私たちのアルゴリズムは、同じ学習アルゴリズム、ネットワークアーキテクチャ、ハイパーパラメータを使用して、カートポールのスイングアップ、機敏な操作、脚式の歩行、車の運転などの古典的な問題を含む20以上の物理的なタスクを堅牢に解決します。 我々のアルゴリズムは、ドメインとその派生物の力学に完全にアクセスできる計画アルゴリズムによって見出されたものと競合するポリシーを見つけることができる。 さらに、多くのタスクで、アルゴリズムはポリシーをエンドツーエンドで学習できることを実証しています。生のピクセル入力から直接です。

ソース https://github.com/songrotek/DDPG

ニューラルプログラマ - インタプリタ(Neural Programmer-Interpreters)

https://arxiv.org/abs/1511.06279 ニューラル・プログラマーインタープリタ(NPI):プログラムの表現と実行を学ぶ反復的かつ構成的なニューラル・ネットワークを提案する。 NPIには3つの学習可能なコンポーネントがあります.1つのNPIが異なるアフォーダンスを持つ複数の知覚的に多様な環境で動作することを可能にする、タスクに依存しないリカレントコア、永続的なキー値プログラムメモリ、およびドメイン固有のエンコーダです。 NPIは、より高いレベルのプログラムを表現するためのより低いレベルのプログラムを構成することを学ぶことによって、シーケンス間のLSTMと比較して、サンプルの複雑さを低減し、汎化能力を高める。プログラムメモリは、既存のプログラムを構築することによって、追加のタスクの効率的な学習を可能にする。 NPIは、計算の中間結果をキャッシュするために環境(例えば、読み書きポインタを有するスクラッチパッド)を利用して、再帰的な隠れユニットに対する長期記憶負荷を軽減することもできる。この作業では、完全に管理された実行トレースを使用してNPIをトレーニングします。各プログラムには、入力に条件付けされた即時サブプログラムへの呼び出しの例シーケンスがあります。多数の比較的弱いラベルを訓練するのではなく、少数の豊富な例からNPIを学びます。モデルの追加、並べ替え、正規化の3つの構成プログラムを学習するために、モデルの機能を実証します。さらに、単一のNPIが、これらのプログラムおよび関連するすべての21のサブプログラムを実行することを学びます。

NPIのソース https://github.com/pombredanne/NPI-tensorflow

ニューラルチューリングマシン(Neural Turing Machines)

https://arxiv.org/abs/1410.5401# 我々は、ニューラルネットワークの能力を、注意プロセスによって相互作用することができる外部メモリリソースに結合することによって拡張する。 組み合わせたシステムはTuring MachineやVon Neumannのアーキテクチャに類似していますが、エンドツーエンドで微分可能で、勾配降下で効率的に訓練することができます。 予備的な結果は、ニューラルチューリングマシンが、入力、出力の例からのコピー、ソート、および連想想起などの単純なアルゴリズムを推論できることを示しています。

微分可能なニューラル計算機(Differentiable neural computers)

https://deepmind.com/blog/differentiable-neural-computers/ 最近のNatureの研究では、微分可能な神経計算機と呼ばれるメモリ拡張型ニューラルネットワークの一形態を紹介し、人工的に生成された物語、家系図、人工物など、複雑で構造化されたデータに関する質問に答えるために、 ロンドン地下鉄の地図さえあります。 また、強化学習を用いたブロックパズルゲームを解くことができることを示す。

https://github.com/yos1up/DNC https://github.com/Mostafa-Samir/DNC-tensorflow

進化するディープニューラルネットワーク(Evolving Deep Neural Networks)

https://arxiv.org/pdf/1703.00548.pdf 深い学習が成功するかどうかは、タスクを実行するアーキテクチャに依存します。 ディープ・ラーニングがより困難なタスクにスケールアップされるにつれ、アーキテクチャーは手作業で設計するようになっています。この論文では、ディープ・ラーニング・アーキテクチャーを進化を通して最適化するための自動化メソッドCoDeepNEATを提案します。 存在する神経進化方法をトポロジーコンポーネント、および超パラメータに拡張することにより、この方法は、物体認識および言語モデリングにおける標準的なベンチマークでの最良のデザインに匹敵する結果を達成する。 また、マガジンウェブサイト上に自動画像キャプションの実世界アプリケーションを構築することもサポートしています。 利用可能なコンピューティングパワーの増加が予想され、ディープネットワークの進化は、将来的に深い学習アプリケーションを構築する有望なアプローチです。

OptNet:ニューラルネットワークにおける層としての微分可能な最適化(OptNet: Differentiable Optimization as a Layer in Neural Networks)

https://arxiv.org/pdf/1703.00443.pdf 本稿では、最適化問題(ここでは、具体的には2次プログラムの形で)を、より大規模なエンドツーエンドの訓練可能なネットワークの個々の層として統合するネットワークアーキテクチャであるOptNetを紹介します。これらのレイヤーは、伝統的な畳み込み的かつ完全に連結されたレイヤーがキャプチャできない隠れた状態間の複雑な依存性を可能にします。この論文では、このようなアーキテクチャの基礎を開発します。これらのレイヤーとレイヤーパラメーター;我々は、これらの層のための非常に効率的なソルバを開発する。これは、プライマルデュアル内部ポイント法の中で高速GPUベースのバッチ解決を利用し、バックプロパゲーショングラジエントを解決の上に実質的に追加コストなしで提供する。いくつかの問題でこれらのアプローチの適用を強調している。特にスタンドアウトの例では、ゲームのルールに関する先験的な情報なしに、メソッドが入力と出力のゲームだけでスードクをプレイできることを示しています。この作業は、実験した他のニューラルネットワークアーキテクチャでは事実上不可能であり、我々のアプローチの表現能力を強調している。

ソース https://github.com/locuslab/optnet

ニューラルネットを最適化するための学習(Learning to Optimize Neural Nets)

https://arxiv.org/pdf/1703.00441.pdf 最適化学習(Li&Malik、2016)は、強化学習を用いて最適化アルゴリズムを学習するための枠組みである。本稿では、浅いニューラルネットを学習するための最適化アルゴリズムの学習を検討する。 このような高次元の確率的最適化問題は、既存の強化学習アルゴリズムにとって興味深い課題を提示する。我々はこの設定における最適化アルゴリズムの学習に適した拡張を開発し、学習された最適化アルゴリズムが他の既知の最適化アルゴリズムよりも一貫して優れていることを示す。 ニューラルネットアーキテクチャ。 より具体的には、提案した方法を用いてMNISTのニューラルネットワークを学習する問題に対する最適化アルゴリズムが、CIFAR-10とCIFAR-100のトーラスフェイスデータセットニューラルネットの訓練の問題であることを示す。

(Learning to learn)

https://arxiv.org/abs/1606.04474 手で設計された機能から機械学習の学習された機能への移行は大成功を収めました。それにもかかわらず、最適化アルゴリズムは依然として手作業で設計されています。本稿では、学習問題として最適化アルゴリズムの設計をどのようにキャストすることができるかを示し、アルゴリズムが関心のある問題の構造を自動的に利用する方法を学習できるようにする。LSTMによって実装された学習済みのアルゴリズムは、一般的な手作業で設計された競合他社の訓練を受けたタスクより優れており、同様の構造を持つ新しいタスクにも一般化することができます。これは、単純な凸問題、神経ネットワークの訓練、神経芸術によるイメージのスタイリングなど、多くのタスクでこれを実証しています。