SOMの読み方

SOMは、データ分布を表現するための最もコンパクトな方法でしょう。 SOMが複雑なデータを直感的な2次元の主要な空間で表現するので、このマップの可視化に慣れれば、データの従属性が簡単に理解できます。下記の事例は、Viscoveryの可視化の基本を直感的に説明します。(注意:アルゴリズムの説明ではありません。)

Field 1000人の人々がサッカーボール場にいると想像してください。我々は属性(たとえば、性別、年齢、配偶者の有無、収入)を定義して、これらの属性によって、最も似ている人に近づくように、人々にお願いします。しばらくすると、すべての人はそれぞれ、類似した属性値を共有する人々に囲まれます。この配置は、多次元データ・ポイントの2次元表現のたとえです。

 

Figuresそして、一同を高みから見渡しているところを想像してください。皆に年齢に応じた旗(青は20歳未満、緑は20代、黄色は30代、オレンジは40代、赤は50以上)を上げるようにお願いするのです。あなたがサッカーボール場で見る色のパターンは、“年齢”属性の分布に対応します。次にあなたは、群集をその場に止まらせて、収入に対応する色の旗を上げさせ、その他の属性についても同様にしていきます。あなたは、各属性について、サッカーボール場の色の分布を写真に撮ります。この色のパターンは、Viscoveryソフトウェア内の色コードされたマップと一致します。

 

Map Pictures最後に、あなたは、すべての写真を並べて、従属性を調査します。たとえば、若い人々のクラスタ(青/緑)、さらに年配の人々のクラスタ(オレンジ、赤)を見るでしょう。さらに、年齢のクラスタと収入のクラスタの間にいくらかの相関(たとえば、年齢の高いグループにより高い収入が出現する)を発見するでしょう。この方法を続けて、あなたは定義された属性間の関係性をさらに発見します。