데이터 과학: 데이터를 사용하여 질문에 대한 합리적인 답을 내릴 수 있게 해주는 활동
질문 ex) 병원 치료율을 높이는 방법은?, 비싼 와인이 더 맛있을까?
1. 문제 정의
현실의 구체적인 문제를 명확하게 표현하고 통계적, 수리적 언어로 번역하는 작업
ex) 어떤 변수들이 주택 가격을 결정 짓는지 알고자 할 때, 얼마나 안전한지, 상업지구인지, 학군이 좋은지, 가을 바라보는 전망 좋은 곳인지, 공장이 근처여서 공기가 좋지 않은지 등등의 변수를 고려해야 함.
--> 문제 파악 후 수집해야 할 변수 정하기
2. 데이터 정의
변수, 지표 등을 정의
3. 실험계획 or 표본화
실험 계획: 실험/통제 집단을 어느 정도 크기로 정의할지를 정하는 것 같은 문제를 결정하는 분야
표본화: 모집단을 대표하는 표본을 얻기 위한 것
(표본 크기가 커지면 통계적 정확도가 높아지고 검정력도 높아지므로 어느 정도의 정확도를 원하는지 결정해야 실제 조사를 진행할 때의 표본 크기를 결정할 수 있음. 표본 크기가 중요한 계산 중 하나임.)
분석에 사용될 소스 데이터가 이미 존재하는 경우에는 불필요한 과정.
4. 데이터 취득 (data acquisition)
여러 기관으로부터 다양한 형태, 시스템에 저장된 원데이터를 분석 시스템으로 가져오는 활동
5. 데이터 가공(data processing)
취득한 데이터를 설명할 변수-관측치 테이블 형태로 정리하는 활동. 데이터 변환.
- 가공 활동의 결과인 갭마인더 데이터(Gapminder data): 변수-관측치가 테이블 형태로 정리되어있음. 시각화의 예제로 많이 사용됨.
*테이블(표) 형태의 데이터: 각 열은 변수를 나타내고, 각 행은 관측치를 나타내는 형태로 정리된 데이터
6. 탐색적 데이터 분석(Exploratory Data Analysis, EDA)
다양한 시각화, *기초통계량 계산을 통해 데이터의 패턴, 이상치 등을 자유롭게 탐색해 가는 것. 통계치를 계산하는 요약 작업 등을 해야 하므로 데이터 가공 기술이 많이 필요한 단계
탐색적 데이터 분석이 끝나고 데이터의 기본적인 패턴에 익숙해지면 통계 추정이 가능
7. 확증적 데이터 분석(Confirmatory Data Analysis, CDA) or 통계적 모형화(statiscal modeling)
모형을 정의(실제 통계 모형 적용), 실제적 질문을 통계적 가설로 표현하며, 데이터로부터 통계량을 계산하여 가설을 검정하고 *신뢰구간을 구함.
데이터 가공, 데이터 시각화(모형 가정 확인) 기술이 많이 필요한 단계.
ex) 수량형 값을 예측하는 문제에 쓰이는 통계 모형: 회귀분석 (regression analysis)
선형회귀분석(linear regression)은 주택 가격이 설명 변수(explanatory variable)들의 가중합으로 결정된다고 가정함.
실제 주택 가격은 정확한 가중합으로 주어지지 않음. 따라서 실제 선형회귀분석 모형은 다음처럼 잡음(noise)값을 추가한 표현을 사용함. 주택 가격 = B0+B_crim x_crim+...+B_istat x_istat+ 잡음
- 모형화 단계: 다양한 통계 가설검정 절차(statistical hypothesis testing)를 사용하여 통계적 결론을 내림.
두 집단의 평균값 비교에 많이 사용되는 방법 : *이변량 t-검정 (two-sample t-test) or *대응표본 t-검정(paired t-test)
실험변수가 하나인 경우: 성공확률 비교검정(two-sample proportion test): 통제 집단의 성공확률과 실험 집단의 성공확률의 차이를 정규분포(normal distribution)를 사용해 검정. 결과는 *P-값(확률의 차이와 통계적 유의성을 나타냄), 확률의 차이의 *신뢰구간으로 주어짐.
8. 분석 결과 정리(reporting)
위의 작업이 끝나면.. 분석 결과를 리포트 형태로 정리하고 공유하게 됨.
이렇게 선형적으로는 이해하지 않기. 데이터가 말해주는 내용을 좇아서 능동적으로 적응해나가는, 점진적이면서 순환적(iterative)과정으로 이해하는 것이 현실에 가까움.
*기초통계량: 데이터의 기본적인 특성을 요약하여 표현하는 수치 (평균, 중앙값, 표준 편차)
*P-값: 관찰된 데이터가 귀무가설과 양립하는 정도를 0~1사이의 수치로 표현한 것
*귀무가설(영가설): 기존에 보편적인 사실인 것처럼 알려져 있는 것, 귀무가설이 참이면 대립가설은 거짓, 증명하려는 것이 틀리면 귀무가설이 참, 내 분석 가설이 통계적으로 유의미하지 않을 때 귀무가설이 참
*대립가설: 증명하고자 하는 가설. 사실처럼 알려져 있는 것이 상식과 다름을 증명하려는 것. 귀무가설이 거짓이면 대립가설이 참, 증명하려는 것이 맞으면 대립가설이 참, 내 분석 가설이 통계적으로 유의미할 때 대립가설이 참
ex) 귀무가설: 태풍은 배달 주문수와 관련이 없을 것이다.
대립가설: 태풍이 오면 배달 주문수가 늘 것이다.
*신뢰구간: 표본 통계량에서 파생되어 알 수 없는 모집단 모수 값이 포함될 가능성이 있는 값의 범위
'공부 > 데이터 과학' 카테고리의 다른 글
[데이터 과학책 정리] 4. 변수 분석하기/데이터 요약 정보 확인 (0) | 2024.08.06 |
---|---|
[데이터 과학책 정리] 3. R에서 data 불러오기 (csv 파일, 큰 외부 파일, 엑셀 파일) (0) | 2024.08.06 |
[데이터 과학책 정리] 2. 데이터 과학자가 갖춰야 할 능력 (0) | 2024.08.01 |