공부/데이터 마이닝 11

[데이터 마이닝] Ch.11 - Contextual and Collective outliers를 Mining하기, 고차원 데이터에서 Outlier Detection

1. Basic concept - outlier은 normal한 패턴을 따르지 않는 것 2. Statiscal approaches: 통계적 기법으로 outlier 찾기(box plot, normal distribution, t-distribution, distance-based, realistic k로 local outlier)3. Proximity-based approaches4. Reconstruction-based approaches - normal한 방법을 대표하는 모델 (succint represention)으로 복원시켰을 때, normal한 것은 모델을 따르고, outlier은 모델을 따르지 않음.5. Clustering and Classification based approaches - 클러..

[데이터 마이닝] Ch11. Outlier - Reconstruction-based, Clustering and Classification-based Outlier detection

1. Basic concept2. Statiscal approaches3. Proximity-based approaches4. Reconstruction-based approaches - Matrix factorization based method 5. Clustering and Classification based approaches - Clustering-based approaches - Classification-based approaches6. Mining contextual and collective outliers7. Outlier detection in high-dimensional data  어떠한 data를 설명하기 위한 model(Succinct representation)을 오차를 최..

[데이터 마이닝] Ch11. Outliers - Statiscal, Proximity-based outlier detection

1. Basic concept2. Statiscal approaches - Parametric methods - Nonparametric methods3. Proximity-based approaches4. Reconstruction-based approaches5. Clustering and Classification based approaches6. Mining contextual and collective outliers7. Outlier detection in high-dimensional data  주어진 data set의 분포를 잘 설명하는 생성 모델을 학습하고, 그 모델에서 낮은 확률 영역(low-probability regions)에 속하는 objects를 outliers로 식별한다. pa..

[데이터 마이닝] Ch11. Outlier - Basic concept

Outlier(이상치)를 알아보고, Outlier을 detection(감지)하는 방법론을 배워보자.1. Basic concept2. Statiscal approaches3. Proximity-based approaches4. Reconstruction-based approaches5. Clustering and Classification based approaches6. Mining contextual and collective outliers7. Outlier detection in high-dimensional data대부분의 transaction들은 normal 하지만, 몇몇은 매우 anormal(일반적이지 않다). 함.Outlier: data의 분포(expectation)을 따르지 않는 소수의 d..

[데이터 마이닝] Ch8. Cluster analysis - Density-based/Grid-based

Cluster analysis: 군집 분석Partitioning methods: 부분 나누기 방법Hierarchical methods: 계층적 방법Density-based and grid-based methods (밀도 기반, 격자 기반 방법)- DBSCAN : high density(높은 밀도)를 가진 connected regions(연결된 지역)을 기반으로 한 density-based(밀도 기반) clustering- DENCLUE: density distribution function(밀도 분산 함수)에 기반한 clustering- Grid-based methodEvaluation of clustering (클러스터링의 평가) density(밀도)에 기반한 Clustering밀도의 척도: local..

[데이터 마이닝] Ch8. Cluster analysis -Hierarchical methods

Cluster analysis: 군집 분석Partitioning methods: 부분 나누기 방법Hierarchical methods: 계층적 방법Hierarchical clustering의 기본 개념Agglomerative hierarchical clustering (병합 계층적 군집화)Divisive hierarchical clustering (분열 일으키는 계층적 군집화)BIRCH: scalable hierarchical clustering (확장 가능한 계층적 군집화) using clustering feature(CF) trees (군집 특징 트리를 이용한)Probabilisitc hierarchical clustering (확률적인 계층적 군집화)Density-based and grid-base..

[데이터 마이닝] Data, Measurements and Data Preprocessing

Data Types, Statics of Data, Similarity and Distace9 Measures, Data Quality, Data Clening and Data Intergration, Data transformation, Dimensionality Reduction, Summary에 대해 배워보자. 1. Record Data (기록된 데이터)- Relational records: Relational tables(관계형 테이블), highly structured(구조화된- Data matrix ex. numerical matrix(숫자 배열), crosstabs (교차표)- Transaction data (발생 데이터, 변동 데이터)- Document data: Term-frequency..

[데이터 마이닝] Pattern Mining: FP-Growth (freq 패턴 마이닝)

Apriori approach의 장애물(단점)- Breadth-first search: 메모리를 많이 씀. 모든 것을 탐색해야 함. (비효율적)- candidate를 생성하고 테스트함: 종종 많은 양의 candidate가 생김- memory 안에 candidate가 다 들어가야 알고리즘 성능이 좋아짐. → candidate 개수가 줄어야 함. 어떤 case에는 메모리에 candidate를 다 넣을 수 없음그래서 생긴 FPGrowth Approach- Depth-first search - 명확한 candidate 생성을 피한다.- 원리: 지역 frequent items 만을 사용해서 짧은 패턴 → 긴 패턴으로 성장시킴    ㄴ frequent pattern인 "abc" / "abc"를 가진 모든 trans..

[데이터 마이닝] Pattern Mining: Pattern Evaluation Methods

패턴 평가 방법에 대해 알아보자. 1. Rule/Pattern이 흥미로운지(중대한지) 판단하는 방법pattern-mining은 방대한 pattern/rules의 집합을 만든다. -> 생성된 모든 집합이 흥미롭진 않음. 흥미로움의 척도: Objective(객관적) vs Subjective(주관적) -> Support, confidence, correlation... 주관적인 흥미로움의 척도: 다양한 user들이 다양하게 흥미로움을 판단 (흔한 pattern은 버림)사용자가 지정한다: Query-based(사용자의 특정한 요청과 관련됨)누군가의 지식에 대해 판단: 예상치 않은, 새로운, 시의성(유행에 뒤지지 않은)... 2. Support-Confidence 기반의 한계(limitation)s와 c asso..

[데이터 마이닝] Pattern Mining: Methods (Apriori)

1. 효율적인 Pattern Mining 방법Frequent Patterns의 Downward Closure Property (하향 폐쇄.. 방법)The Apriori Algoritm확장(extensions) or 향상(Improvements) of Apriori  수직 데이터 포맷 탐색에 의한 frequent patterns miningFPGrowth: A Frequent Pattern-Growth ApproachMining Closed Patterns ... 2. The Apriori Algorithm (의사 코드)C_k: Candidate itemset of size k (item 갯수 k개인 후보 itemset)F_k: Frequent item set of size k (item 갯수 k개인 fr..