[데이터 과학책 정리] 4. 변수 분석하기/데이터 요약 정보 확인

공부/데이터 과학

[데이터 과학책 정리] 4. 변수 분석하기/데이터 요약 정보 확인

ko527ko 2024. 8. 6. 23:08

책에서는 names(boston) <= c('crim', 'zn', 'indus'.....)로 변수명을 할당한다.

그러나 내가 다루는 데이터에는 이미 변수명이 할당되어있어 이 과정이 따로 필요하진 않다.

그런데 변수명이 뭔지는 짚고 가야할 것 같아서 변수명에 대해 알아보려고 한다.

내가 다운받은 데이터는 uci 머신러닝 리포 사이트에 있는 'wine_quality" 라는 데이터다. 변수는 총 12개다.

1. 변수 분석하기

1. fixed.acidity: 비휘발성 산도, 와인과 관련된 대부분의 산

2. volatile.acidity: 휘발성 산도. 와인에 함유된 아세트산의 양. 너무 높으면 불쾌한 식초맛이 남

3. citric.acid: 구연산. 소량으로 발견되며, 와인에 풍미를 더할 수 있음.

4. residual.sugar: 잔여 당분. 발표가 멈춘 후 남은 설탕의 양, 1g/L 미만의 와인은 드물며 45g/L 이상의 와인은 단맛으로 간주함

5. chlorides: 염소화물. 와인의 염분량

6. free.sulfur.dioxide: 유리 이산화황. 미생물의 성장과 와인의 산화를 방지함

7. total.sulfur.dioxide: 총 이산화황. 저농도에서는 맛이 잘 나지 않으나, 50ppm 이상 농도는 맛에서 뚜렷하게 나타남.

8. density: 밀도. 알코올 및 당 함량에 따라 변함

9. pH: 산성 또는 염기성 정도. 0(매우 산성)~14(매우 염기성). 대부분의 와인은 pH 3~4 사이

10. sulphates: 황산염. 이산화황 농도에 기여할 수 있는 와인 첨가제. 향균 및 항산화제로 작용

11. alcohol: 와인의 알코올 함량 백분율

12. quality: 맛으로 평가된 와인의 품질

출처: https://dacon.io/competitions/official/235840/data

이걸로 AI 해커톤을 했었나 보군.. 변수 뜻 설명이 매우 자세하게 나와있다.

2. 요약 정보 확인

plot, summary 이용해서 간단하게 알아볼 것임.

> plot(wine)

plot 함수를 쓰면 *산점도행렬이 나온다.

산점도행렬: 여러 개의 변수의 조합으로 산점도를 그려 행렬형태로 나타낸 그림.

산점도: 두 변수의 관계를 보여주는 자료 표시 방법

음 이것만 봐서는 잘 모르겠다.

> summary(wine)

데이터의 모든 열(변수)에 대한 요약 정보를 보여준다. 문자열 데이터인 경우 Length(길이), Class, Mode(타입)을 보여주고, 수치형 데이터인 경우 Min.(최솟값), 1st Qu.(*1사분위수), Median(중앙값), Mean(평균), 3rd Qu.(*3사분위수), Max.(최댓값)을 보여준다.

*사분위수: 데이터 표본을 큰 값에서 작은 값 순으로 정렬하고, 4개의 동일한 부분으로 나눈 값

*1사분위수: 데이터의 1/4(25%)가 이 값보다 작거나 같음.

*3사분위수: 데이터의 3/4(75%)가 이값보다 작거나 같음.

wine 데이터는 수치형 데이터이기 때문에 최솟값, 1사분위수 등등이 나온다.

'공부 > 데이터 과학' 카테고리의 다른 글

[데이터 과학책 정리] 3. R에서 data 불러오기 (csv 파일, 큰 외부 파일, 엑셀 파일) (0)	2024.08.06
[데이터 과학책 정리] 2. 데이터 과학자가 갖춰야 할 능력 (0)	2024.08.01
[데이터 과학책 정리] 1. 데이터 과학의 전반적인 과정 (0)	2024.08.01

현재글[데이터 과학책 정리] 4. 변수 분석하기/데이터 요약 정보 확인

ko527ko 님의 블로그

ko527ko 님의 블로그 입니다.

r 데이터 불러오기 #데이터 불러오기 #csv 파일 불러오기 #read.csv(),

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

ko527ko 님의 블로그