メニュー

技術ブログ

Denso IT Lab.社員による技術情報の紹介

Denso IT Laboratory researcher's blog sites

数式

RSS

ページトップへ

SIGIR2013勉強会参加報告

DB及びIR系の研究者で構成される勉強会(DBREADING)においてSIGIR2013勉強会が開催されたので、参加、発表してきました。

  • SIGIR勉強会 [http://www.kde.cs.tsukuba.ac.jp/dbreading/?SIGIR2013]
  • SIGIR2013 [http://sigir2013.ie/]

■学会の概要
まず、SIGIRに関して簡単に説明させていただくと、SIGIRとはIR系のトップカンファレンスのうちの一つです。1973年に学会が創設されており、元々図書館における書籍検索に関する研究を取り扱っていたとのことです。
論文の採択率はかなり低く例年20%程度とかなりハイレベルな競争が繰り広げられています。なお、今年度の論文採択率は以下の通りとのことです

・ full paper: 73/366 = 20%
・ short paper: 85/250 = 34%

なお、今年度のBest Paper Awardは「Beliefs and Biases in Web Search」(人の信念(思い込み)とそれが引き起こすバイアスの研究) , Best Student Paperは「 Toward Whole-Session Relevance: Exploring Intrinsic Diversity in Web Search(検索タスクが混在する場合の検索多様性の確保)でした。

■紹介論文
勉強会ではセッション「Users and Interactive IR I 」で発表された論文の紹介をしてきました。

このエントリーをはてなブックマークに追加

ICDE2013勉強会参加報告

DB及びIR系の研究者で構成される勉強会(DBREADING)においてICDE2013勉強会が開催されたので、参加、発表してきました。

  • ICDE勉強会 [http://www.kde.cs.tsukuba.ac.jp/dbreading/?ICDE2013]
  • ICDE2013 [http://www.icde2013.org/]

■学会の概要
まず、ICDEに関して簡単に説明させていただくと、ICDEとはデータベース系のトップカンファレンスのうちの一つであり、かなり実装寄りの学会とされています。また、産業系の論文も数多く投稿されるのがこの学会の特徴です。
論文の採択率はかなり低く例年20%程度とかなりハイレベルな競争が繰り広げられています。なお、今年度の論文採択率は以下の通りとのことです。

  • 研究論文95 / 443 = 21.4%
  • インダストリアル論文 8 / 20 = 40.0%
  • デモ 27 / 69 = 39.1%

今年は例年と比較して、Spatial Databases系の論文が多く投稿されたことが特徴的でした。また、最近の傾向通り、分散処理系のデータベースの精度向上、信頼性向上に関する研究は多くの発表があった一方で数年前のホットトピックであったxml系の研究は縮小気味の様子です。
なお、今年度のBest Paper Awardは

  • Crowdsourced Enumeration Queries(クラウドソーシングによる解答における母集団の推定に生物統計学の固有種数推定を応用)
  • T‐Share: A Large‐Scale Dynamic Taxi Ridesharing Service(タクシーのライドシェアに関する論文。タクシーのリアルタイムに計算するため時空間索引を事前計算)

でした。

■紹介論文
勉強会ではセッション「Social Media II」で発表された論文の紹介をしてきました。

 

 紹介した論文の内容は以下の通りです。

  1. A Unified Model for Stable and Temporal Topic Detection from Social Media Data
    ソーシャルメディアにおけるコンテンツが一時的なトピックかそれとも恒久的なトピックかを考慮した上でトピック判定を実施
    【内容】
    twitter等のユーザからの発信されるメディアについては、いつも言及されているような話題、例えば犬やペット等の定番の話題の他に実世界のイベント、例えば有名人の死去や選挙等、実時間に左右されるようなものがあるとのこと。これらを考慮した上でのトピック分類モデルを作成した、というのが本論文のコントリビューションです。
    【感想】
    提案されているモデルが結構簡単な割に効果が高い、というのが正直な感想です。あと、行動推定タスク等において、イリーガルな行動が入るようなケースにおいての応用ができそう。
  2. Crowdsourced Enumeration Queries (Best Paper)
    クラウドソーシングの検索タスクに対する回答集合数(母集団)の推定.
    生物統計学における固有種数の推定手法を応用(CHAO92)
    【概要】
    クラウドソースを利用した検索タスク、例えば、世の中にあるアイスクリームの味の全てを集めてくる、ある地域の地名を全て集める等のタスクを実行しようとした場合を考えると、
    通常のデータベースにおける検索においては、データベースの中にあるデータが全て、であると仮定することができることから、該当する結果の数は容易に見積もる事ができます。
    一方で、クラウドソースを利用した検索タスクにおいては、母集団がwebやクラウドワーカーの知識の中に存在することになることになり、該当する結果の数は推定することが大変難しいのですが、
    同課題に対して、生物群集学における個体数の推定手法(CHAO92)を応用した手法を提案。具体的には、クラウドタスクにおけるストーキング(すべての解を一人でやってしまうようなワーカ)への対策を実施した手法であるStreaker-tolerant Estimatorを提案しています。
  3. 【感想】
    論文の内容はICDEでベストペーパーを取ったということもあり大変おもしろい。
    疑問としては、そもそも個体数の推定手法は、CHAO92が提案されて以降、CHAO92の課題(サンプル数が少ない場合、母集団の推定数がかなり大きめの値になってしまう、)等の欠点を解決するために、いろいろ新しい方法が提案されているとのこと(e.g. ACE等)。
    同課題はクラウドタスクでも共通する課題であることから、なぜに他の手法を使わずCHAO92を適用したのかがよくわからなかった。
    あと、今回の手法は、種(解答)数の推定であり、種の分布は一切考慮していない。当然生物分類学においては、種の分布に対する推定手法も存在し、またクラウドタスクにおいても、回答数の予測に対するニーズも存在することから、今後同課題に対する研究も進むのかなあ、と感もありました。
  4. On Incentive-based Tagging
    tag情報の品質をインセンティブをワーカー与えることによって向上させる。
    【概要】
    urlや写真等に付与されているタグを解析して、品質の悪いタグやタグが付与されていないものを優先的にタグ付与することによって全体の品質を向上することができました、という論文。
    【感想】
    クラウドタスクにおけるタスク割り当て戦略、に関する論文。最近はやり。クラウドタスクにおけるタスク割り当て戦略に関する研究は当然必要だろうな、とは思うんだけど、ただ、この論文の課題設定と解決手法は微妙。。そんなん当たり前じゃん、というのが正直な感想。

■その他気になった論文

  1. T-Share: A Large-Scale Dynamic Taxi Ridesharing Service
    タクシーのRideShareのための動的クエリとスケージューリングのためのアルゴリズムの提案です。新しい利用客がクエリしたとき,既に割り当てられたスケジュールを破らずに,最低限の距離の追加でそのクエリを満たすタクシーを発見する。高速化処理のため、事前計算した時空間インデックスの利用しています。
  2. CPU and Cache Efficient Management of Memory-Resident Databases
    主記憶DBのPartially Decomposed Storage Modelにおけるデータアクセス手法において、JITを利用することによって高速化できました、という論文です。
このエントリーをはてなブックマークに追加