데이터 마이닝은 어떤 종류의 패턴을 발견할 수 있습니까?
가장 관련성이 높은 데이터(조직 데이터베이스에서 제공되거나 외부 소스로부터 얻을 수 있음)를 사용하여 데이터 마이닝은 데이터 세트에 존재하는 속성(즉,변수 또는 특성)간의 패턴을 식별하는 모델을 구축합니다. 모델은 일반적으로 데이터 세트에 설명 된 객체(예:고객)의 속성 간의 관계를 식별하는 수학적 표현(단순한 선형 상관 관계 및/또는 복잡한 고도로 비선형 관계)입니다. 이러한 패턴 중 일부는 설명 적(속성 간의 상호 관계와 친화력을 설명)인 반면 다른 패턴은 예측 적(특정 속성의 미래 가치를 투영)입니다. 일반적으로 데이터 마이닝은 세 가지 주요 유형의 패턴을 식별하려고 합니다:
-
협회는 일반적으로 쇼핑 카트에서 함께 구매되고 관찰되는”맥주와 기저귀”또는”빵과 버터”와 같은 일반적으로 공동 발생하는 물건 그룹을 찾습니다(즉,시장 바구니 분석). 협회 패턴의 또 다른 유형은 사물의 시퀀스를 캡처합니다. 이러한 순차적 관계는 이미 당좌 계좌를 보유한 기존 은행 고객이 저축 계좌를 개설하고 1 년 이내에 투자 계좌를 개설할 것을 예측하는 것과 같이 시간 순서 이벤트를 검색할 수 있습니다.
-
예측은 슈퍼 볼의 승자를 예측하거나 특정 날의 절대 온도를 예측하는 것과 같이 과거에 일어난 일에 따라 특정 이벤트의 미래 발생의 본질을 알려줍니다.
-
클러스터는 인구 통계 및 과거 구매 행동에 따라 다른 세그먼트에 고객을 할당하는 것과 같이 알려진 특성을 기반으로 사물의 자연스러운 그룹을 식별합니다.
이러한 유형의 패턴은 수세기 동안 인간에 의해 데이터에서 수동으로 추출되었지만 현대에 데이터의 양이 증가함에 따라보다 자동적 인 접근 방식이 필요하게되었습니다. 데이터 세트의 크기와 복잡성이 증가함에 따라 정교한 방법론,방법 및 알고리즘을 사용하는 간접적 인 자동 데이터 처리 도구로 직접 수동 데이터 분석이 점점 더 강화되었습니다. 대용량 데이터 세트를 처리하는 자동화 및 반자동 수단의 이러한 진화의 표현은 이제 일반적으로 데이터 마이닝이라고합니다.
앞에서 언급했듯이 일반적으로 데이터 마이닝 작업과 패턴은 예측,연결 및 클러스터링의 세 가지 주요 범주로 분류 할 수 있습니다. 기록 데이터에서 패턴을 추출하는 방법에 따라 데이터 마이닝 방법의 학습 알고리즘을 감독 또는 감독되지 않은 것으로 분류 할 수 있습니다. 감독 학습 알고리즘을 사용하면 학습 데이터에는 설명 속성(즉,독립 변수 또는 결정 변수)과 클래스 속성(즉,출력 변수 또는 결과 변수)이 모두 포함됩니다. 대조적으로,감독되지 않은 학습과 함께,훈련 데이터는 설명적인 속성만을 포함한다. 그림 2.3 은 각 데이터 마이닝 작업에 대한 학습 방법 및 널리 사용되는 알고리즘과 함께 데이터 마이닝 작업에 대한 간단한 분류를 보여줍니다. 세 가지 주요 작업 범주 중에서 예측 패턴/모델은 감독 학습 절차의 결과로 분류 될 수 있으며 연관 및 클러스터링 패턴/모델은 감독되지 않은 학습 절차의 결과로 분류 될 수 있습니다.
예측은 일반적으로 미래에 대해 말하는 것을 나타내는 데 사용됩니다. 그것은 예언의 작업을 수행 할 때 경험,의견 및 기타 관련 정보를 고려하여 간단한 추측과 다릅니다. 일반적으로 예측과 관련된 용어는 예측입니다. 많은 사람들이이 두 용어를 동의어로 사용하더라도 그들 사이에는 미묘한 차이가 있습니다. 예측은 주로 경험과 의견을 기반으로하지만 예측은 데이터 및 모델 기반입니다. 즉,신뢰성을 높이는 순서로 관련 용어를 추측,예측 및 예측으로 나열 할 수 있습니다. 데이터 마이닝 용어에서 예측 및 예측은 동의어로 사용되며 예측이라는 용어는 법의 공통 표현으로 사용됩니다. 예측되는 내용의 성격에 따라 예측은 분류(내일의 예측과 같은 예측 된 것이”비가 오는”또는”맑은”과 같은 클래스 레이블 인 경우)또는 회귀(내일의 온도와 같은 예측 된 것이”65 도”와 같은 실수)로 더 구체적으로 명명 될 수 있습니다.
분류 또는 감독 유도,아마도 모든 데이터 마이닝 작업의 가장 일반적인 것입니다. 분류의 목적은 데이터베이스에 저장된 기록 데이터를 분석하고 미래의 동작을 예측할 수있는 모델을 자동으로 생성하는 것입니다. 이 유도 모델은 사전 정의 된 클래스를 구별하는 데 도움이되는 학습 데이터 세트의 레코드에 대한 일반화로 구성됩니다. 이 모델을 사용하여 다른 분류되지 않은 레코드의 클래스를 예측하고 더 중요한 것은 실제 미래 이벤트를 정확하게 예측할 수 있기를 바랍니다.
일반적인 분류 도구에는 신경망 및 의사 결정 트리(기계 학습),로지스틱 회귀 및 판별 분석(기존 통계),러프 세트,지원 벡터 기계 및 유전 알고리즘과 같은 새로운 도구가 포함됩니다. 통계 기반 분류 기술(예:로지스틱 회귀 분석,판별 분석)은 분류 유형 데이터 마이닝 프로젝트에서의 사용을 제한하는 독립성 및 정규성과 같은 데이터에 대해 비현실적인 가정을하는 것으로 비판을 받았습니다.
신경망은 잘 구조화 된 데이터 세트의 형태로 제시된 과거의 경험에서 배울 수있는 능력을 가진 수학적 구조(인간 뇌의 생물학적 신경망과 다소 유사 함)의 개발을 포함합니다. 그들은 관련된 변수의 수가 다소 크고 그들 사이의 관계가 복잡하고 부정확 할 때 더 효과적인 경향이 있습니다. 신경망에는 이점아울러 불리가 있는다. 예를 들어,신경망에 의한 예측에 대한 좋은 근거를 제공하는 것은 일반적으로 매우 어렵습니다. 또한 신경망은 상당한 훈련이 필요한 경향이 있습니다. 불행히도 훈련에 필요한 시간은 데이터 양이 증가함에 따라 기하 급수적으로 증가하는 경향이 있으며 일반적으로 신경 네트워크는 매우 큰 데이터베이스에서 훈련 될 수 없습니다. 이러한 요인 및 기타 요인은 데이터가 풍부한 도메인에서 신경 네트워크의 적용 가능성을 제한했습니다. (신경 네트워크에 대한 자세한 내용은 5 장”예측 분석 알고리즘”을 참조하십시오.)
의사 결정 트리는 입력 변수의 값을 기반으로 데이터를 유한 한 수의 클래스로 분류합니다. 의사 결정 트리는 본질적으로 만약 그렇다면 문장의 계층 구조이며 따라서 신경망보다 훨씬 빠릅니다. 범주형 및 간격 데이터에 가장 적합합니다. 따라서 연속형 변수를 의사 결정 트리 프레임워크에 통합하려면 불연속화,즉 연속형 값 숫자 변수를 범위 및 범주로 변환해야 합니다.
분류 도구의 관련 범주는 규칙 유도입니다. 규칙 유도와 함께 의사 결정 트리와 달리 경우-다음 문은 학습 데이터에서 직접 유도되며 본질적으로 계층 적 일 필요는 없습니다. 데이터 마이닝 알고리즘에 대한 토론의 일환으로 5 장에서 더 자세히 다루고 있습니다.
데이터 마이닝에서 일반적으로 연결 규칙이라고 불리는 연결을 사용하는 것은 대규모 데이터베이스에서 변수 간의 흥미로운 관계를 발견하는 데 널리 사용되고 잘 연구 된 기술입니다. 바코드 스캐너의 사용과 같은 자동화된 데이터 수집 기술 덕분에 슈퍼마켓의 판매 시점 시스템에 의해 기록된 대규모 거래에서 제품 간의 규칙성을 발견하기 위한 연관 규칙의 사용은 소매업계에서 일반적인 지식 발견 과제가 되었습니다. 소매 산업의 맥락에서,협회 규칙 마이닝은 종종 시장 바구니 분석이라고합니다.
협회 규칙 마이닝의 일반적으로 사용되는 두 가지 파생 상품은 링크 분석과 시퀀스 마이닝입니다. 링크 분석을 사용하면 웹 페이지 간의 링크와 학술 출판 저자 그룹 간의 참조 관계와 같이 많은 관심 대상 간의 링크가 자동으로 발견됩니다. 시퀀스 마이닝을 사용하면 시간 경과에 따른 연결을 식별하기 위해 발생 순서에 따라 관계를 검사합니다. 연결 규칙 마이닝에 사용되는 알고리즘에는 인기있는 항목 집합(빈번한 항목 집합이 식별되는 경우),성장,원어,제로 및 에클 라 알고리즘이 포함됩니다. 4 장,”예측 분석을위한 데이터 및 방법”은 사전 정보에 대한 설명을 제공합니다.
클러스터링은 사물 모음(예:객체,이벤트 등)을 파티셔닝하는 것을 포함합니다.,구조화 된 데이터 세트로 표시됨)멤버가 유사한 특성을 공유하는 세그먼트(또는 자연 그룹화)로 표시됩니다. 분류와 달리 클러스터링에서는 클래스 레이블을 알 수 없습니다. 선택한 알고리즘이 데이터 세트를 통과하면서 특성에 따라 사물의 공통점을 식별하면 클러스터가 설정됩니다. 클러스터는 휴리스틱 유형 알고리즘을 사용하여 결정되고 다른 알고리즘이 동일한 데이터 집합에 대해 서로 다른 클러스터 집합으로 끝날 수 있으므로 클러스터링 기술의 결과를 사용하기 전에 전문가가 제안된 클러스터를 해석하고 잠재적으로 수정해야 할 수 있습니다. 합리적인 클러스터가 식별 된 후에는 새 데이터를 분류하고 해석하는 데 사용할 수 있습니다.
당연히 클러스터링 기술에는 최적화가 포함됩니다. 클러스터링의 목표는 각 그룹 내의 구성원이 최대 유사성을 가지며 그룹 전체의 구성원이 최소 유사성을 갖도록 그룹을 만드는 것입니다. 가장 일반적으로 사용되는 클러스터링 기술은 다음과 같습니다 케이-수단(통계에서)및 자기 조직화 맵(기계 학습에서),코호넨(1982)에서 개발 한 고유 한 신경망 아키텍처입니다.
기업들은 종종 데이터 마이닝 시스템을 효과적으로 사용하여 클러스터 분석을 통해 시장 세분화를 수행합니다. 클러스터 분석은 항목 클래스를 식별하여 클러스터의 항목이 다른 클러스터의 항목보다 서로 공통점을 갖도록 하는 방법입니다. 이러한 유형의 분석은 고객을 세분화하고 적절한 가격에 적절한 형식으로 적절한 시간에 세그먼트에 적절한 마케팅 제품을 지시하는 데 사용할 수 있습니다. 클러스터 분석은 이벤트 또는 개체의 자연 그룹을 식별하여 이러한 그룹의 공통 특성 집합을 식별하여 설명하는 데에도 사용됩니다.
데이터 마이닝과 관련된 두 가지 기술은 시각화 및 시계열 예측입니다. 시각화를 다른 데이터 마이닝 기술과 함께 사용하여 기본 관계를 보다 명확하게 이해할 수 있습니다. 최근 몇 년 동안 시각화의 중요성이 증가함에 따라 시각적 분석이라는 용어가 등장했습니다. 이 아이디어는 더 쉽고 빠른 지식 생성을 위해 단일 환경에서 분석과 시각화를 결합하는 것입니다. 시각적 분석은 4 장에서 자세히 설명합니다. 시계열 예측에서 데이터는 시간이 지남에 따라 일정한 간격으로 캡처되고 저장되는 동일한 변수의 값으로 구성됩니다. 이 데이터는 예측 모델을 개발하여 동일한 변수의 미래 값을 추정하는 데 사용됩니다.