책에서는 names(boston) <= c('crim', 'zn', 'indus'.....)로 변수명을 할당한다.
그러나 내가 다루는 데이터에는 이미 변수명이 할당되어있어 이 과정이 따로 필요하진 않다.
그런데 변수명이 뭔지는 짚고 가야할 것 같아서 변수명에 대해 알아보려고 한다.
내가 다운받은 데이터는 uci 머신러닝 리포 사이트에 있는 'wine_quality" 라는 데이터다. 변수는 총 12개다.
1. 변수 분석하기
1. fixed.acidity: 비휘발성 산도, 와인과 관련된 대부분의 산
2. volatile.acidity: 휘발성 산도. 와인에 함유된 아세트산의 양. 너무 높으면 불쾌한 식초맛이 남
3. citric.acid: 구연산. 소량으로 발견되며, 와인에 풍미를 더할 수 있음.
4. residual.sugar: 잔여 당분. 발표가 멈춘 후 남은 설탕의 양, 1g/L 미만의 와인은 드물며 45g/L 이상의 와인은 단맛으로 간주함
5. chlorides: 염소화물. 와인의 염분량
6. free.sulfur.dioxide: 유리 이산화황. 미생물의 성장과 와인의 산화를 방지함
7. total.sulfur.dioxide: 총 이산화황. 저농도에서는 맛이 잘 나지 않으나, 50ppm 이상 농도는 맛에서 뚜렷하게 나타남.
8. density: 밀도. 알코올 및 당 함량에 따라 변함
9. pH: 산성 또는 염기성 정도. 0(매우 산성)~14(매우 염기성). 대부분의 와인은 pH 3~4 사이
10. sulphates: 황산염. 이산화황 농도에 기여할 수 있는 와인 첨가제. 향균 및 항산화제로 작용
11. alcohol: 와인의 알코올 함량 백분율
12. quality: 맛으로 평가된 와인의 품질
출처: https://dacon.io/competitions/official/235840/data
이걸로 AI 해커톤을 했었나 보군.. 변수 뜻 설명이 매우 자세하게 나와있다.
2. 요약 정보 확인
plot, summary 이용해서 간단하게 알아볼 것임.
> plot(wine)
plot 함수를 쓰면 *산점도행렬이 나온다.
산점도행렬: 여러 개의 변수의 조합으로 산점도를 그려 행렬형태로 나타낸 그림.
산점도: 두 변수의 관계를 보여주는 자료 표시 방법
음 이것만 봐서는 잘 모르겠다.
> summary(wine)
데이터의 모든 열(변수)에 대한 요약 정보를 보여준다. 문자열 데이터인 경우 Length(길이), Class, Mode(타입)을 보여주고, 수치형 데이터인 경우 Min.(최솟값), 1st Qu.(*1사분위수), Median(중앙값), Mean(평균), 3rd Qu.(*3사분위수), Max.(최댓값)을 보여준다.
*사분위수: 데이터 표본을 큰 값에서 작은 값 순으로 정렬하고, 4개의 동일한 부분으로 나눈 값
*1사분위수: 데이터의 1/4(25%)가 이 값보다 작거나 같음.
*3사분위수: 데이터의 3/4(75%)가 이값보다 작거나 같음.
wine 데이터는 수치형 데이터이기 때문에 최솟값, 1사분위수 등등이 나온다.
--
'공부 > 데이터 과학' 카테고리의 다른 글
[데이터 과학책 정리] 3. R에서 data 불러오기 (csv 파일, 큰 외부 파일, 엑셀 파일) (0) | 2024.08.06 |
---|---|
[데이터 과학책 정리] 2. 데이터 과학자가 갖춰야 할 능력 (0) | 2024.08.01 |
[데이터 과학책 정리] 1. 데이터 과학의 전반적인 과정 (0) | 2024.08.01 |