データマイニング-クラスター分析
クラスターは、同じクラスに属する つまり、類似オブジェクトは1つのクラスターにグループ化され、類似していないオブジェクトは別のクラスターにグループ化されます。
クラスタリングとは何ですか?クラスタリングは、抽象オブジェクトのグループを類似のオブジェクトのクラスにするプロセスです。
覚えておくべきポイント
-
データオブジェクトのクラスタは、一つのグループとして扱うことができます。
-
クラスター分析を行う際には、まずデータの類似性に基づいてデータのセットをグループに分割し、次にグループにラベルを割り当てます。
-
分類よりもクラスタリングの主な利点は、変更に適応可能であり、異なるグループを区別する有用な特徴を選別するのに役立つということです。
クラスター分析のアプリケーション
-
クラスター分析は、市場調査、パターン認識、データ分析、画像処理など、多くのアプリケーションで広
-
クラスタリングは、マーケティング担当者が顧客ベースで異なるグループを発見するのにも役立ちます。 また、購買パターンに基づいて顧客グループを特徴付けることができます。生物学の分野では、植物や動物の分類法を導出し、同様の機能を持つ遺伝子を分類し、集団に固有の構造を洞察するために使用することができます。
-
クラスタリングは、地球観測データベースで同様の土地利用の地域を特定するのにも役立ちます。 また、住宅の種類、価値、および地理的位置に応じて都市内の住宅のグループの識別に役立ちます。
-
クラスタリングは、情報発見のためにweb上のドキュメントを分類するのにも役立ちます。
-
クラスタリングは、クレジットカード詐欺の検出などの外れ値検出アプリケーションでも使用されます。
-
データマイニング機能として、クラスター分析は、各クラスターの特性を観察するためのデータの分布を洞察するためのツールとして機能します。
データマイニングにおけるクラスタリングの要件
以下の点は、データマイニングでクラスタリングが必要な理由を明らかにする−
-
スケーラビリティ−大規模なデータベースを扱うためには、スケーラブルなクラスタリングアルゴリズムが必要である。
-
さまざまな種類の属性を扱う能力−アルゴリズムは、間隔ベースの(数値)データ、カテゴリ、バイナリデータなど、あらゆる種類のデータに適用できる必要があ
-
属性形状を持つクラスターの発見−クラスタリングアルゴリズムは、任意の形状のクラスターを検出できる必要があります。 それらは、小さなサイズの球状クラスターを見つける傾向がある距離測度だけに限定されるべきではありません。
-
高次元−クラスタリングアルゴリズムは、低次元のデータだけでなく、高次元の空間も処理できるはずです。
-
ノイズの多いデータに対処する機能−データベースには、ノイズの多い、欠落している、または誤ったデータが含まれています。 一部のアルゴリズムはこのようなデータに敏感であり、品質の低いクラスターにつながる可能性があります。
-
解釈可能性−クラスタリング結果は解釈可能であり、理解可能であり、使用可能である必要があります。
クラスタリング方法
クラスタリング方法は、次のカテゴリに分類することができます−
- パーティショニング方法
- 階層方法
- 密度ベースの方法
- グリッドベースの方法
- モデルベースの方法
- 制約ベースの方法
パーティショニングメソッド
我々は’n’オブジェクトのデータベースが与えられ、分割メソッドはデータの’k’パーティションを構築します。 各パーティションはクラスタとk≤nを表します。 これは、次の要件を満たすkグループにデータを分類することを意味します−
-
各グループには少なくとも一つのオブジェクトが含まれています。
-
各オブジェクトは正確に1つのグループに属している必要があります。
覚えておくべきポイント−
-
与えられた数のパーティション(kなど)に対して、パーティショニングメソッドは初期パーティショニングメソッドを作成します。
-
次に、反復再配置技術を使用して、オブジェクトをあるグループから別のグループに移動することによって分割を改善します。
Hierarchical Methods
このメソッドは、指定されたデータオブジェクトのセットの階層分解を作成します。 階層分解がどのように形成されるかに基づいて階層的方法を分類することができる。 ここには二つのアプローチがあります−
- 凝集アプローチ
- 分裂アプローチ
凝集アプローチ
このアプローチはボトムアップアプ この中で、各オブジェクトが別々のグループを形成することから始めます。 これは、互いに近いオブジェクトやグループをマージし続けます。 すべてのグループが1つにマージされるまで、または終了条件が保持されるまで、これを続けます。
分割アプローチ
このアプローチは、トップダウンアプローチとも呼ばれます。 これでは、同じクラスター内のすべてのオブジェクトから始めます。 連続イテレーションでは、クラスターは小さなクラスターに分割されます。 これは、1つのクラスタ内の各オブジェクトまたは終了条件が保持されるまでダウンします。 つまり、マージまたは分割が完了すると、元に戻すことはできません。
階層クラスタリングの品質を向上させるためのアプローチ
階層クラスタリングの品質を向上させるために使用される二つのアプローチは次のとおりです。
-
各階層パーティショニングでオブジェクトのリンクを慎重に分析します。
-
階層集塊を統合するには、まず階層集塊アルゴリズムを使用してオブジェクトをマイクロクラスターにグループ化し、次にマイクロクラスタ
密度ベースの方法
この方法は、密度の概念に基づいています。 基本的な考え方は,近傍の密度があるしきい値を超える限り,与えられたクラスタを成長させ続けること,すなわち,与えられたクラスタ内の各データ点について,与えられたクラスタの半径は少なくとも最小数の点を含まなければならないことである。
グリッドベースのメソッド
この中で、オブジェクトは一緒にグリッドを形成します。 オブジェクト空間は、格子構造を形成する有限数のセルに量子化される。
利点
-
この方法の主な利点は、処理時間が速いことです。これは、量子化された空間内の各次元のセルの数にのみ依存します。
-
これは、量子化された空間内の各次元のセルの数にのみ依存します。
モデルベースの方法
この方法では、与えられたモデルのデータの最良の適合を見つけるために、各クラスターについてモデルが仮定されます。 この方法では、密度関数をクラスタリングすることによってクラスターを特定します。 これは、データポイントの空間分布を反映しています。
このメソッドは、外れ値またはノイズを考慮して、標準統計に基づいてクラスタの数を自動的に決定する方法も提供します。 したがって、堅牢なクラスタリング方法が得られます。
制約ベースの方法
この方法では、クラスタリングは、ユーザーまたはアプリケーション指向の制約の組み込みによって実行されます。 制約とは、ユーザーの期待値または目的のクラスタリング結果のプロパティを指します。 制約は、クラスタリングプロセスとの対話的な通信方法を提供します。 制約は、ユーザーまたはアプリケーション要件によって指定できます。