2024/10 4

[데이터 마이닝] Data, Measurements and Data Preprocessing

Data Types, Statics of Data, Similarity and Distace9 Measures, Data Quality, Data Clening and Data Intergration, Data transformation, Dimensionality Reduction, Summary에 대해 배워보자. 1. Record Data (기록된 데이터)- Relational records: Relational tables(관계형 테이블), highly structured(구조화된- Data matrix ex. numerical matrix(숫자 배열), crosstabs (교차표)- Transaction data (발생 데이터, 변동 데이터)- Document data: Term-frequency..

[데이터 마이닝] Pattern Mining: FP-Growth (freq 패턴 마이닝)

Apriori approach의 장애물(단점)- Breadth-first search: 메모리를 많이 씀. 모든 것을 탐색해야 함. (비효율적)- candidate를 생성하고 테스트함: 종종 많은 양의 candidate가 생김- memory 안에 candidate가 다 들어가야 알고리즘 성능이 좋아짐. → candidate 개수가 줄어야 함. 어떤 case에는 메모리에 candidate를 다 넣을 수 없음그래서 생긴 FPGrowth Approach- Depth-first search - 명확한 candidate 생성을 피한다.- 원리: 지역 frequent items 만을 사용해서 짧은 패턴 → 긴 패턴으로 성장시킴    ㄴ frequent pattern인 "abc" / "abc"를 가진 모든 trans..

[데이터 마이닝] Pattern Mining: Pattern Evaluation Methods

패턴 평가 방법에 대해 알아보자. 1. Rule/Pattern이 흥미로운지(중대한지) 판단하는 방법pattern-mining은 방대한 pattern/rules의 집합을 만든다. -> 생성된 모든 집합이 흥미롭진 않음. 흥미로움의 척도: Objective(객관적) vs Subjective(주관적) -> Support, confidence, correlation... 주관적인 흥미로움의 척도: 다양한 user들이 다양하게 흥미로움을 판단 (흔한 pattern은 버림)사용자가 지정한다: Query-based(사용자의 특정한 요청과 관련됨)누군가의 지식에 대해 판단: 예상치 않은, 새로운, 시의성(유행에 뒤지지 않은)... 2. Support-Confidence 기반의 한계(limitation)s와 c asso..

[데이터 마이닝] Pattern Mining: Methods (Apriori)

1. 효율적인 Pattern Mining 방법Frequent Patterns의 Downward Closure Property (하향 폐쇄.. 방법)The Apriori Algoritm확장(extensions) or 향상(Improvements) of Apriori  수직 데이터 포맷 탐색에 의한 frequent patterns miningFPGrowth: A Frequent Pattern-Growth ApproachMining Closed Patterns ... 2. The Apriori Algorithm (의사 코드)C_k: Candidate itemset of size k (item 갯수 k개인 후보 itemset)F_k: Frequent item set of size k (item 갯수 k개인 fr..