予測分析とデータマイニングの概要

データマイニングはどのようなパターンを発見できますか?

データマイニングは、最も関連性の高いデータ(組織のデータベースから取得されたり、外部ソースから取得されたりする可能性があります)を使用して、データセッ モデルは、通常、データセットに記述されているオブジェクト(顧客など)の属性間の関係を識別する数学的表現(単純な線形相関および/または複雑な非 これらのパターンのいくつかは説明的(属性間の相互関係と親和性を説明する)であり、他のパターンは予測的(特定の属性の将来の値を予測する)である。 一般的に、データマイニングは3つの主要なタイプのパターンを特定することを目指しています:

  • 協会は、”ビールとおむつ”や”パンとバター”などのものの一般的に共同発生するグループを見つけ、一般的に購入し、ショッピングカートで一緒に観察します(すなわち、市場バスケット分析)。 関連パターンの別のタイプは、物事のシーケンスをキャプチャします。 これらの逐次的な関係は、当座預金口座を既に持っている既存の銀行顧客が1年以内に普通預金口座を開設し、その後に投資口座を開設すると予測

  • 予測は、スーパーボウルの勝者を予測したり、特定の日に絶対温度を予測するなど、過去に何が起こったかに基づいて、特定のイベントの将来の発生の性質

  • クラスターは、人口統計や過去の購入行動に基づいて異なるセグメントに顧客を割り当てるなど、既知の特性に基づいて物事の自然なグループを識別し

これらのタイプのパターンは、何世紀にもわたって人間がデータから手動で抽出してきましたが、現代のデータ量の増加により、より自動化されたアプローチが必要になりました。 データセットのサイズと複雑さが増大するにつれて、高度な方法論、方法、およびアルゴリズムを使用する間接的な自動データ処理ツールによって、直接の手動データ分析がますます強化されています。 大規模なデータセットを処理する自動化された半自動化された手段のこのような進化の現れは、現在、一般的にデータマイニングと呼ばれています。

前述したように、一般的に言えば、データマイニングタスクとパターンは、予測、関連、クラスタリングの三つの主要なカテゴリに分類することができます。 パターンが履歴データから抽出される方法に基づいて、データマイニング方法の学習アルゴリズムは、教師付きまたは教師なしのいずれかに分類するこ 教師あり学習アルゴリズムでは、学習データには記述属性(独立変数または決定変数)とクラス属性(出力変数または結果変数)の両方が含まれます。 対照的に、教師なし学習では、学習データには記述的な属性のみが含まれます。 図2.3は、データマイニングタスクの簡単な分類法と、各データマイニングタスクの学習方法と一般的なアルゴリズムを示しています。 タスクの三つの主要なカテゴリのうち、予測パターン/モデルは教師なし学習手順の結果として分類することができ、関連付けとクラスタリングパターン/モ

予測は、一般的に未来について伝えることを示すために使用されます。 それは、予告の作業を行う際の経験、意見、およびその他の関連情報を考慮に入れることによって、単純な推測とは異なります。 一般的に予測に関連付けられている用語は、予測です。 多くの人がこれらの2つの用語を同義語として使用していますが、それらの間には微妙な違いがあります。 予測は主に経験と意見に基づいていますが、予測はデータとモデルに基づいています。 つまり、信頼性を高めるために、関連する用語を推測、予測、および予測としてリストすることができます。 データマイニングの用語では、予測と予測は同義的に使用され、予測という用語はactの共通表現として使用されます。 予測されているものの性質に応じて、予測はより具体的に分類(明日の予測などの予測されたものが”雨”や”晴れ”などのクラスラベルである場合)または回帰(明日の温度などの予測されたものが”65度”などの実数である場合)として名前を付けることができます。

分類、または教師あり誘導は、おそらくすべてのデータマイニングタスクの中で最も一般的です。 分類の目的は、データベースに格納されている履歴データを分析し、将来の動作を予測できるモデルを自動的に生成することです。 この誘導モデルは、事前定義されたクラスを区別するのに役立つ学習データセットのレコードに対する一般化で構成されています。 このモデルを使用して、他の未分類レコードのクラスを予測し、さらに重要なことに、実際の将来のイベントを正確に予測できることが期待されます。

一般的な分類ツールには、ニューラルネットワークと決定木(機械学習から)、ロジスティック回帰と判別分析(従来の統計から)、ラフセット、サポートベクターマシン、遺伝的アルゴリズムなどの新たなツールが含まれます。 統計に基づく分類手法(ロジスティック回帰、判別分析など)は、分類型データマイニングプロジェクトでの使用を制限する独立性や正規性などの非現実的な仮定をしていると批判されている。

ニューラルネットワークは、よく構造化されたデータセットの形で提示された過去の経験から学ぶ能力を有する数学的構造(人間の脳の生物学的ニュー 関係する変数の数がかなり多く、それらの間の関係が複雑で不正確である場合、それらはより効果的になる傾向があります。 ニューラルネットワークには欠点と利点があります。 たとえば、ニューラルネットワークによって行われた予測のための良い理論的根拠を提供することは、通常非常に困難です。 また、ニューラルネットワークは、かなりの訓練を必要とする傾向があります。 残念ながら、トレーニングに必要な時間は、データ量が増加するにつれて指数関数的に増加する傾向があり、一般に、ニューラルネットワークは非常に大規模なデー これらの要因やその他の要因により、データリッチ領域におけるニューラルネットワークの適用性が制限されています。 (ニューラルネットワークの詳細については、第5章”予測分析のためのアルゴリズム”を参照してください。)

決定木は、入力変数の値に基づいて、データを有限数のクラスに分類します。 デシジョンツリーは基本的にif–then文の階層であり、ニューラルネットワークよりも大幅に高速です。 これらは、カテゴリデータと区間データに最も適しています。 したがって、連続変数をデシジョンツリーフレームワークに組み込むには、離散化、つまり連続値の数値変数を範囲とカテゴリに変換する必要があります。

分類ツールの関連カテゴリはルール誘導です。 決定木とは異なり、ルール帰納法では、if–then文はトレーニングデータから直接誘導され、本質的に階層的である必要はありません。 SVM、ラフセット、遺伝的アルゴリズムなどの他の、より最近の技術は、徐々に分類アルゴリズムの武器に彼らの方法を見つけており、データマイニングアルゴリズムに関する議論の一部として第5章でより詳細に説明されています。

データマイニングで一般的に連想ルールと呼ばれる関連付けを使用することは、大規模なデータベース内の変数間の興味深い関係を発見するための一般的でよく研究された手法です。 バーコードスキャナの使用などの自動データ収集技術のおかげで、スーパーマーケットの店頭システムによって記録された大規模な取引における製品間の規則性を発見するためのアソシエーションルールの使用は、小売業界の一般的な知識発見タスクとなっている。 小売業界の文脈では、協会ルールマイニングは、多くの場合、市場バスケット分析と呼ばれています。

関連ルールマイニングでよく使用される派生物は、リンク解析とシーケンスマイニングです。 リンク分析では、webページ間のリンクや学術出版物の著者のグループ間の参照関係など、多くの関心対象間のリンクが自動的に発見されます。 シーケンスマイニングでは、時間の経過とともに関連性を識別するために、発生順序の観点から関係が検査されます。 関連ルールマイニングで使用されるアルゴリズムには、一般的なApriori(頻繁な項目セットが識別される)、FP-Growth、OneR、ZeroR、およびEclatアルゴリズムが含まれます。 第4章”予測分析のためのデータと方法”では、Aprioriについて説明します。

クラスタリングは、物事のコレクション(オブジェクト、イベントなど)を分割することを含みます。、構造化されたデータセットで提示)そのメンバーが同様の特性を共有するセグメント(または自然なグループ)に。 分類とは異なり、クラスタリングでは、クラスラベルは不明です。 選択されたアルゴリズムがデータセットを通過し、それらの特性に基づいて物事の共通性を識別すると、クラスタが確立される。 クラスターはヒューリスティック型アルゴリズムを使用して決定され、異なるアルゴリズムが同じデータセットに対して異なるクラスターのセットで終わる可能性があるため、クラスタリング手法の結果を使用する前に、専門家が提案されたクラスターを解釈し、潜在的に修正する必要がある可能性があります。 合理的なクラスターが特定された後、それらを使用して新しいデータを分類および解釈することができます。

クラスタリング技術には最適化が含まれていることは驚くことではありません。 クラスタリングの目的は、各グループ内のメンバーが最大の類似性を持ち、グループ間のメンバーが最小の類似性を持つようにグループを作成することです。 最も一般的に使用されるクラスタリング技術には、k-means(統計から)と自己組織化マップ(機械学習から)があり、Kohonen(1982)によって開発されたユニークなニューラルネットワークアーキテクチャである。

企業は、データマイニングシステムを効果的に使用して、クラスター分析による市場細分化を実行することがよくあります。 クラスター分析は、クラスター内のアイテムが他のクラスター内のアイテムよりも相互に共通するように、アイテムのクラスを識別する手段です。 このタイプの分析は、顧客をセグメント化し、適切な価格で適切な形式で適切なタイミングでセグメントに適切なマーケティング製品を演出する クラスター分析は、イベントやオブジェクトの自然なグループを識別するためにも使用され、これらのグループの共通の特性セットを識別してそれらを

多くの場合、データマイニングに関連付けられている二つの技術は、可視化と時系列予測です。 可視化は、他のデータマイニング技術と組み合わせて使用して、基礎となる関係をより明確に理解することができます。 近年、視覚化の重要性が高まっているため、視覚分析という用語が浮上しています。 アイデアは、より簡単かつ迅速な知識の作成のための単一の環境で分析と可視化を組み合わせることです。 ビジュアル分析の詳細については、第4章で説明します。 時系列予測では、データは、一定の間隔で時間の経過とともに取得および保存されるのと同じ変数の値で構成されます。 このデータは、同じ変数の将来の値を外挿する予測モデルを開発するために使用されます。

コメントを残す

メールアドレスが公開されることはありません。