メニュー

技術ブログ

Denso IT Lab.社員による技術情報の紹介

Denso IT Laboratory researcher's blog sites

数式

RSS

ページトップへ

論文紹介「Playing Atari with Deep Reinforcement Learning」

本日、社内で行った論文紹介の資料です。この論文では、Deep Learning と Q-Learning とを融合する方法が提案されています。この概要のみを解説しています。


このエントリーをはてなブックマークに追加

NIPS2013聴講

NIPS2013に初めて参加しました。今年は1900人ほどが参加しているということです。思ったよりも参加者が多く、驚きました。この内、約300程の論文が採択され、その内の30くらいがオーラルで発表ができるという、やはり狭き門だなと実感しました。会場は、Lake Tahoeというカリフォルニア州とアリゾナ州との州境にあり、わずかにアリゾナ側にあります、それにちなんで会場のホテルがある地域は Stateline という名前が付いているようです。今年は特に気温が低く、最高気温がマイナス数度、最低気温がマイナス二十度前後くらいの日があり、ホテルから外に出る気になれず、非常に詰まらないと思いました。寒さはホテルの中にいれば良いのですが、個人的には空気の乾燥が辛く、喉が痛くなり、声も出なくなってしまいました。

しかし、300近い論文から、何を見たら良いか、自分の研究と直接繋がるものは良いとして、それ以外に何を見たら良いか迷うものです。このような時に、私はキーグラフを使って、論文の傾向を見て、何か面白そうなものはないかと調べるようにしています。キーグラフは、かなり試行錯誤をしないと傾向が見えないのですが、お手軽に使えるので重宝しています。特に、研究者グループの抽出とかには、とても便利です。今年のNIPSの論文をキーブラフ分析したものを以下に示します。


LDAで分析した人もいたので、参考にして下さい:

NIPSの論文は、以下から見ることができます(Reviewも見れて、凄いですね):

今年、個人的にもっとも印象的に思ったことは、ノイズの効用ということでしょうか。通常、ノイズは悪者であるはずですが、むしろノイズが良い影響をもたらすことがあるという事が時々ある訳です。それは、ヒューリスティックに利用されていたりしていたのですが、最近は、それを理論的に説明しようということがなされているようです。今回のNIPSでも、P. Baldiさんが Deep Neural Network における Dropout のモデルを作り、それが正則化の効果があることなどを説明していました。連想記憶モデルでも、ノイズにより性能が向上するという話が出ていたように思います。確率的勾配法なども、拡大解釈すれば、その範疇に入れることができるかもしれません。

チュートリアルでは、次の3つを聴いてみました。

  • Causes and Counterfactuals: Concepts, Principles and Tools
  • Deep Mathematical Properties of Submodularity with Applications to Machine Learning
  • Mechanisms Underlying Visual Object Recognition: Humans vs. Neurons vs. Machines
  • どれも分かり易く、良いチュートリアルだったと思います。今後、自分の研究に取り入れて行きたいですね。
    1つ目では、causal inference と conditional probability とはまったく違う(new paradigm であると)ということを強調し、しかし、最終的には causal inferenceを conditional probability を使って表現する関係式を導いて、これでちゃんと計算可能であるというような事を言っていたように思います。ちなみに、J. Pearl さんは、初めてどういう人か見たのですが、キャラクターが立った人で、意外でした。
    2つ目は、submodular関数の背後にある豊かな数学の世界についての解説で、特に、polymonoid の話に興味を感じました。
    3つ目のプレゼンは、内容と資料ともに非常に秀逸だったと思います。人の脳と機械とを比較し、計算からゲーム(Chessなど)、クイズ(Jeopardy)、パターンマッチングに至まで、機械が人の脳を上回ってしまった。しかし、人の脳の方が上回っていることが、物体認識、シーン理解、歩行であるということであった。この発表では、人の脳がどのように物体認識を行っているのかを解明しようという話でした。ここで、最近話題の deep neural network のように多層の構造がどうして必要かという話があり、それは物体の様々な見え方の違いに対応できるようにするための必然であるということを説明されて、それももっともな話だと思いました。人の脳は「マッピング」(の組み合わせ)によって、物事を処理しているんだと印象に残りました。

    メインの会議は、午前、午後とオーラル・セッションがあり、参加者一同が介して、発表を聴くのですが、私はすぐに話に落ちこぼれてしまい、あまり楽しむことができませんでした。体調が悪く、集中できなかったのもあると思いたいのですが。しかし、いくつか面白いと思えた話を上げると、(あれ、2つしかない!?)

  • P. Baldiさんの Dropout のモデル
  • Daphne KollerさんのCourseraの話
  • Baldiさんの話は、すでに説明しました。Koller さんの話は、冒頭にまず、最初、Ben Taskar 氏の死を悼む話があり、会場全体で黙祷をした後、自らが co-founder, co-CEO を勤める Coursera の紹介でした。これは、世界のトップクラスの大学の教育をオンラインで無償で受けることができるオンライン教育システムの話で、発展途上国などで貧困に苦しむ家庭の子供達に、そこから抜け出せる機会を作っているもので、すでに数百万人に受講生がいるという。これだでの多くの学生の授業をフォローしたり、スコアを付ける作業は大変であり、そこに機械学習のような技術が不可欠になってくる訳です。このコースを履修して、試験をパスすると、ちゃんと卒業証書を発行してくれるそうで、その代金20ドルが主な収入源になっているようでした。話を聴いている時から、ちょっと胸を打たれていましたが、トークが終わった後、まるで、音楽の演奏会でアンコールをまつような感じで、暫く人々の拍手が止まなかったのが印象的でした。セッションの中休みには、若者達が、スピーカーの Koller さんを取り囲み、熱心に話をしていて、なんて素晴らしい光景だろうと思いました。(下の写真の中心あたり。ちょっと分かり難いですが。)

    DSC03378_50

    ワークショップは、次の2つを聴くことにしました:

  • Planning with Information Constraints for Control, Reinforcement Learning, Computational Neuroscience, Robotics and Games
  • Workshop on Spectral Learning
  • ワークショップの方が、テーマが絞れていて、人数も少なくなるので、議論もし易く、楽しいですね。個人的には、これくらいの規模でないと楽しめないということが、今回、良く分かりました。
    1つ目のワークショップでは、ややマイナーなテーマかもしれませんが、最適制御と量子力学や熱力学などとの間に密接な類似関係があることが知られていて、その関係を積極的にロボット制御などに利用して行こうという話で、自分が物理出身であるということもあり、非常に魅力を感じたテーマでした。しかし、物理出身者からすると、類似の利用の仕方に、若干、違和感も感じないでもなかったので、この違和感を解消することを、まず第一の目標にしようと思いました。
    Spectral Learning は、ここ数年、とても流行っているという印象がありますが、着実にメインの方法として定着していっているように思えます。特に、テンソル量への拡張に興味を感じます。

    NIPSは、あまりに規模が大きく、一人ではごく一部を把握するのがやっとだと体感しました。しかし、得るものも多い会議だとも思うので、来年も参加できると良いと思いますが、一人ではなく、何人かで参加できると良いと思いました。会場もこんな山奥ではなく、カナダのモントリオールに変わるということなので、会議以外も楽しむことができるでしょう。(噂では、この会場は4年ほど使う予定だったそうですが、2年目の今年で終了になったようです。会場を変えたのは、山奥で行き難いとかいう理由かと思っていたら、それよりも会場的に、どうしてもカジノの中を移動しないといけないのが不評であったからということのようです。)

    [おまけ] メインの会場があるホテル。雪が降り、道路に雪が残っています。
    DSC03388_40

    このエントリーをはてなブックマークに追加

    IJCNLP2013聴講

    月曜日から、IJCNLP2013を聴講に来ています。昨夜から今朝に掛けては、大型の台風26号が来ましたが、名古屋は夜半から朝方に掛けて通過したため、会議自体にはあまり影響はなかったようで、良かったです。

    月曜日は Humanoid Robot との Open-domain 対話に関するチュートリアルを聞きました。Wikipediaのリンクを利用して、話題をスムーズに切り替えて行くという会話制御の方法、音声と共に、身体的なボディーランゲージと同期させるという内容でした。Open-dmain talk と open-domain listening とは違う、ということで、今回は前者であり、後者ははやり難しいと言われていました。

    ちなみに、このチュートリアルで紹介されていたPythonによる Robotics と音声認識・合成のライブラリ

    今回、面白いと思った発表をいくつかご紹介します。(ちゃんと理解できていない部分も多く、勘違いなどあったら、申し訳ありません。)

    まずは、形態素分析関係で、東大の鍛冶さんらによる”Efficient Word Lattice Generation for Joint Word Segmentation and POS Tagging in Japanese” です。形態素分析におけるラティスの生成では、n文字の文に対して単語の候補を O(n^2) 個考える必要があり、それらすべてを考慮しようとすると非常にコストが掛かり、非現実的。そこで、この部分の処理を軽くするための近似手法が色々とある。この発表では、セグメンテーションと品詞の割当を独立に処理することで、計算量を線形に落としている。しかも、それぞれ、ある種のパーセプロトンで処理している。これらを分離することで、精度に影響があるかと思われるが、それがないという所が意外です。

    次に、同じく形態素分析関係で、東工大の笹野さんらの “A Simple Approach to Unknown Word Processing in Japanese Morphological Analysis”です。「冷たい」に対して「冷たーーーい」のように、口語的な未知語は、辞書にある単語を一定のルールで変形することで得られることを利用して、ラティスを拡張するとで、このような口語的な未知語がある文章の形態素分析も上手くできるようになるというものです。このようにすることで、辞書の整備の手間を軽減できると同時に、ラティス生成時のコストも押さえて、口語的な未知語に対応できそうな気がしました。

    今日の午前に聞いた中では、Stanford大の Mengqiu Wang さんらによる “Learning a Product of Experts with Elitist Lasso” が参考になりました。特徴量の適切な選択が問題となっていて、従来手法として Logarothmic opinion pooling(LOP) モデルや Feature bagging などが触れられていましたが、これらの手法は、ドメインの知識を利用した fine-tuning が必要で、ロバストではないということでした。そこで、彼らは LOP に、group LASSO (L1L2ノルム正則化)を適用し、FOBOSで最適化します。FOBOSによる最適化では、正則化項なしで勾配法を適用して最適化後、そこから正則化項を追加して最適化する部分は解析的な解を求めて最適化します。(そして、それらを繰り返します。)但し、この研究では、後者で最適解をちゃんと計算せずに、経験的に解を与えて最適化するという簡略化を行っていますが、それで結果は良いので、良いとしています。

    次に、パーダーボルン大の Henning Wachsmuth らによる”Learning Efficient Information Extraction on Heterogeneous Texts”です。彼らのアイデアは、ビッグデータのような大規模のテキストマイニングなどにおいては、やはり処理速度が大切であるが、その場合に以下のようなポイントがある。

    • cheap algorithms
    • pipeline processing or input parallelization
    • Specialized search index
    • scheduling of pipeline

    ここで、最初の3つは、それなりにやられていて、最後の scheduling の部分の検討が、これまであまりされて来ていないということで、この部分について分析しています。そこで、テキストの heterogeneity という量(複数のトピックに関わる情報がどのように分布しているか)を定義して、scheduling との関係を調べています。heterogeneityが低い場合には、scheduling の影響はあまり大きくないようですが、高い場合には scheduling を最適化することで、処理速度が向上するという結論であったように思います。

    写真

    このエントリーをはてなブックマークに追加