Effective Computer Science - 偉大なる情報工学の先へ -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

PMI(Pointwise Mutual Information, 自己相互情報量) とは

https://image.slidesharecdn.com/word2vec-161216061244/95/word2vec-8-638.jpg?cb=1481869102

f:id:hatanaman2:20180914085333j:plain

何がしたくて用いる数字なのか?

意味のある共起 = 価値ある共起 としたい

つまり、「"私" "は"」のようなありきたりな共起は省いて、「"ビール" "ワイン"」など、単語自体が頻出というわけではない場合の共起ペアの数値を高くしたい。

自己相互情報量とは, 2つの事象の間の関連度合いを測る尺度である(負から正までの値をとる).
自然言語処理では自己相互情報量が相互情報量と呼ばれることがある. しかし, 情報理論で定義される相互情報量(後述する)とは全く異なるため, 自己相互情報量と呼ぶのが賢明である.

camberbridge.github.io