メニュー

技術ブログ

Denso IT Lab.社員による技術情報の紹介

Denso IT Laboratory researcher's blog sites

数式

RSS

ページトップへ

DSIRNLP#06 Nested Pitman-Yor Language Model

土曜日にDSIRNLPというLINEの佐藤さん(@overlastさん)が主催している勉強会に参加しました.
今回はITラボが会場で,首都大の小町先生に講演にして頂く等ちょっとリッチな内容です.

場所だけ貸してITラボから発表が無いというのも寂しいので,僕も今回は少し長めの時間を頂いて発表をしてきました.
内容は実装したい人のためのNPYLMの解説になります.
実際のContext Treeのノードクラスでは,文脈の管理をmapでやると結構遅くなるので,unordered_mapを使った方が良いと思います.


このエントリーをはてなブックマークに追加

IJCNLP2013聴講

月曜日から、IJCNLP2013を聴講に来ています。昨夜から今朝に掛けては、大型の台風26号が来ましたが、名古屋は夜半から朝方に掛けて通過したため、会議自体にはあまり影響はなかったようで、良かったです。

月曜日は Humanoid Robot との Open-domain 対話に関するチュートリアルを聞きました。Wikipediaのリンクを利用して、話題をスムーズに切り替えて行くという会話制御の方法、音声と共に、身体的なボディーランゲージと同期させるという内容でした。Open-dmain talk と open-domain listening とは違う、ということで、今回は前者であり、後者ははやり難しいと言われていました。

ちなみに、このチュートリアルで紹介されていたPythonによる Robotics と音声認識・合成のライブラリ

今回、面白いと思った発表をいくつかご紹介します。(ちゃんと理解できていない部分も多く、勘違いなどあったら、申し訳ありません。)

まずは、形態素分析関係で、東大の鍛冶さんらによる”Efficient Word Lattice Generation for Joint Word Segmentation and POS Tagging in Japanese” です。形態素分析におけるラティスの生成では、n文字の文に対して単語の候補を O(n^2) 個考える必要があり、それらすべてを考慮しようとすると非常にコストが掛かり、非現実的。そこで、この部分の処理を軽くするための近似手法が色々とある。この発表では、セグメンテーションと品詞の割当を独立に処理することで、計算量を線形に落としている。しかも、それぞれ、ある種のパーセプロトンで処理している。これらを分離することで、精度に影響があるかと思われるが、それがないという所が意外です。

次に、同じく形態素分析関係で、東工大の笹野さんらの “A Simple Approach to Unknown Word Processing in Japanese Morphological Analysis”です。「冷たい」に対して「冷たーーーい」のように、口語的な未知語は、辞書にある単語を一定のルールで変形することで得られることを利用して、ラティスを拡張するとで、このような口語的な未知語がある文章の形態素分析も上手くできるようになるというものです。このようにすることで、辞書の整備の手間を軽減できると同時に、ラティス生成時のコストも押さえて、口語的な未知語に対応できそうな気がしました。

今日の午前に聞いた中では、Stanford大の Mengqiu Wang さんらによる “Learning a Product of Experts with Elitist Lasso” が参考になりました。特徴量の適切な選択が問題となっていて、従来手法として Logarothmic opinion pooling(LOP) モデルや Feature bagging などが触れられていましたが、これらの手法は、ドメインの知識を利用した fine-tuning が必要で、ロバストではないということでした。そこで、彼らは LOP に、group LASSO (L1L2ノルム正則化)を適用し、FOBOSで最適化します。FOBOSによる最適化では、正則化項なしで勾配法を適用して最適化後、そこから正則化項を追加して最適化する部分は解析的な解を求めて最適化します。(そして、それらを繰り返します。)但し、この研究では、後者で最適解をちゃんと計算せずに、経験的に解を与えて最適化するという簡略化を行っていますが、それで結果は良いので、良いとしています。

次に、パーダーボルン大の Henning Wachsmuth らによる”Learning Efficient Information Extraction on Heterogeneous Texts”です。彼らのアイデアは、ビッグデータのような大規模のテキストマイニングなどにおいては、やはり処理速度が大切であるが、その場合に以下のようなポイントがある。

  • cheap algorithms
  • pipeline processing or input parallelization
  • Specialized search index
  • scheduling of pipeline

ここで、最初の3つは、それなりにやられていて、最後の scheduling の部分の検討が、これまであまりされて来ていないということで、この部分について分析しています。そこで、テキストの heterogeneity という量(複数のトピックに関わる情報がどのように分布しているか)を定義して、scheduling との関係を調べています。heterogeneityが低い場合には、scheduling の影響はあまり大きくないようですが、高い場合には scheduling を最適化することで、処理速度が向上するという結論であったように思います。

写真

このエントリーをはてなブックマークに追加

RNNLM

うちの会社には新技術研究会という研究員がお互いに新しい技術を調査して発表しあう会議があるのですが,そこで最近話題のword2vecについて調べたことを報告しました.


デモは見せられないのですが,google code の word2vec のページから落とせる text8 というデータを使った”man king -> woman queen”の例と,毎日新聞コーパス2000年版をMeCabで形態素解析した上で,word2vecで学習したデータを使った,”会社 仕事 -> 学校 勉強”という関係をデモしてます。
文章だけからここまで学習できるのかと正直驚きました.

このエントリーをはてなブックマークに追加