공부/데이터 과학

[데이터 과학책 정리] 4. 변수 분석하기/데이터 요약 정보 확인

ko527ko 2024. 8. 6. 23:08

책에서는 names(boston) <= c('crim', 'zn', 'indus'.....)로 변수명을 할당한다.

그러나 내가 다루는 데이터에는 이미 변수명이 할당되어있어 이 과정이 따로 필요하진 않다.

그런데 변수명이 뭔지는 짚고 가야할 것 같아서 변수명에 대해 알아보려고 한다.

내가 다운받은 데이터는 uci 머신러닝 리포 사이트에 있는 'wine_quality" 라는 데이터다. 변수는 총 12개다.

 

1. 변수 분석하기

 

1. fixed.acidity: 비휘발성 산도, 와인과 관련된 대부분의 산

2. volatile.acidity: 휘발성 산도. 와인에 함유된 아세트산의 양. 너무 높으면 불쾌한 식초맛이 남

3. citric.acid: 구연산. 소량으로 발견되며, 와인에 풍미를 더할 수 있음.

4. residual.sugar: 잔여 당분. 발표가 멈춘 후 남은 설탕의 양, 1g/L 미만의 와인은 드물며 45g/L 이상의 와인은 단맛으로 간주함

5. chlorides: 염소화물. 와인의 염분량

6. free.sulfur.dioxide: 유리 이산화황. 미생물의 성장과 와인의 산화를 방지함

7. total.sulfur.dioxide: 총 이산화황. 저농도에서는 맛이 잘 나지 않으나, 50ppm 이상 농도는 맛에서 뚜렷하게 나타남.

8. density: 밀도. 알코올 및 당 함량에 따라 변함

9. pH: 산성 또는 염기성 정도. 0(매우 산성)~14(매우 염기성). 대부분의 와인은 pH 3~4 사이

10. sulphates: 황산염. 이산화황 농도에 기여할 수 있는 와인 첨가제. 향균 및 항산화제로 작용

11. alcohol: 와인의 알코올 함량 백분율

12. quality: 맛으로 평가된 와인의 품질

 

출처: https://dacon.io/competitions/official/235840/data

이걸로 AI 해커톤을 했었나 보군.. 변수 뜻 설명이 매우 자세하게 나와있다.

 

 

2. 요약 정보 확인

plot, summary 이용해서 간단하게 알아볼 것임.

 

> plot(wine)

plot 함수를 쓰면 *산점도행렬이 나온다.

산점도행렬: 여러 개의 변수의 조합으로 산점도를 그려 행렬형태로 나타낸 그림.

산점도: 두 변수의 관계를 보여주는 자료 표시 방법

음 이것만 봐서는 잘 모르겠다.

 

> summary(wine)

데이터의 모든 열(변수)에 대한 요약 정보를 보여준다. 문자열 데이터인 경우 Length(길이), Class, Mode(타입)을 보여주고, 수치형 데이터인 경우 Min.(최솟값), 1st Qu.(*1사분위수), Median(중앙값), Mean(평균), 3rd Qu.(*3사분위수), Max.(최댓값)을 보여준다.

*사분위수: 데이터 표본을 큰 값에서 작은 값 순으로 정렬하고,  4개의 동일한 부분으로 나눈 값 

*1사분위수: 데이터의 1/4(25%)가 이 값보다 작거나 같음. 

*3사분위수: 데이터의 3/4(75%)가 이값보다 작거나 같음. 

wine 데이터는 수치형 데이터이기 때문에 최솟값, 1사분위수 등등이 나온다.

 

 

 

--