メニュー

技術ブログ

Denso IT Lab.社員による技術情報の紹介

Denso IT Laboratory researcher's blog sites

数式

RSS

ページトップへ

Kernel Entropy Component Analysis

こないだ弊社で勉強会をやったので、そのときの資料を投稿します。

Kernel gram matrix の Factorization 方法です。
PCA, CCA, その他いろいろ方法があるわけですが、これはPCAで得られた基底を元に、Renyi quadratic entorpy を下げる部分空間を選択する手法です。

スライド中には「角度を保存するように働く」と書いてありますが、それはどうも誤りで、正確には「クラスタに属するデータ数に偏りがある場合にも正しくクラスタに分けることができる」だと思います。

Kernel Gram Matrix の固有値は各クラスタのデータ数と相関があります。
Kernel Gram Matrix の固有ベクトルは各クラスタの平均値付近を指すことを期待しますが、「平均値を指すベクトル」に直交するベクトルの中には「他のクラスタを指すベクトル」以外にも、「同クラスタの広がりを表現するベクトル」が存在します。

クラスタに属するデータ数に偏りがある場合、例えば A, B 2つのクラスタが存在し、そのデータ数をそれぞれNa, Nbとし、Na >> Nbであると仮定すると、「Bクラスタの平均値を差すベクトル」に対応する固有値は、「Aクラスタの広がりを表現するベクトル」の固有値より小さくなることが頻発します(スライドP17 第2、第3固有ベクトルは500点からなるクラスタの「広がり」を表現している)。

すると、PCA ではBクラスタを指すベクトルは取得されず、x∈Bはすべて原点に射影される(スライドP15)、、、、ということになります。
ECA では「広がりを表すベクトル」は「要素を足すと0に近くなる(正確にはなりやすい)」という性質を使って、このような要素数が少ないクラスタも救おうとしています。

それは逆に言うと「例外に引っぱられやすい」ということですが。。。

もう一つ大事なことは、Alfred Renyi は淀川長治氏と金出先生に似ている、ということです。

このエントリーをはてなブックマークに追加

SIGIR2013勉強会参加報告

DB及びIR系の研究者で構成される勉強会(DBREADING)においてSIGIR2013勉強会が開催されたので、参加、発表してきました。

  • SIGIR勉強会 [http://www.kde.cs.tsukuba.ac.jp/dbreading/?SIGIR2013]
  • SIGIR2013 [http://sigir2013.ie/]

■学会の概要
まず、SIGIRに関して簡単に説明させていただくと、SIGIRとはIR系のトップカンファレンスのうちの一つです。1973年に学会が創設されており、元々図書館における書籍検索に関する研究を取り扱っていたとのことです。
論文の採択率はかなり低く例年20%程度とかなりハイレベルな競争が繰り広げられています。なお、今年度の論文採択率は以下の通りとのことです

・ full paper: 73/366 = 20%
・ short paper: 85/250 = 34%

なお、今年度のBest Paper Awardは「Beliefs and Biases in Web Search」(人の信念(思い込み)とそれが引き起こすバイアスの研究) , Best Student Paperは「 Toward Whole-Session Relevance: Exploring Intrinsic Diversity in Web Search(検索タスクが混在する場合の検索多様性の確保)でした。

■紹介論文
勉強会ではセッション「Users and Interactive IR I 」で発表された論文の紹介をしてきました。

このエントリーをはてなブックマークに追加

Variational Kalman Filter

坂倉(@a2ki)です。

本日は、弊社内技術ネタ発表会で発表した、Variational Kalman Filter(VKF)について投稿します。

VKFは、高速・省メモリなKalman Filter(KF)設計法です。

大規模な問題においてKFを動かす際、

  • フィルタ分布の分散共分散行列が密行列である点
  • カルマンゲイン獲得のために逆行列を計算しなければいけない点

が、問題とります。

それに対し、VKFは

  • フィルタリング演算において、フィルタ分布の平均をOptimizer、分散共分散行列をInverse Hessianとする最適化問題として表現(要はMAP推定)
  • 上記問題をLBFGSで解くことで、分散共分散行列を省メモリに保持しつつKalman Gainの計算を回避

という構成をとることで、前記問題を解決しています。

具体的な内容は、以下のスライドをご覧ください。


このエントリーをはてなブックマークに追加