공부/데이터 과학 4

[데이터 과학책 정리] 4. 변수 분석하기/데이터 요약 정보 확인

책에서는 names(boston) 그러나 내가 다루는 데이터에는 이미 변수명이 할당되어있어 이 과정이 따로 필요하진 않다.그런데 변수명이 뭔지는 짚고 가야할 것 같아서 변수명에 대해 알아보려고 한다.내가 다운받은 데이터는 uci 머신러닝 리포 사이트에 있는 'wine_quality" 라는 데이터다. 변수는 총 12개다. 1. 변수 분석하기 1. fixed.acidity: 비휘발성 산도, 와인과 관련된 대부분의 산2. volatile.acidity: 휘발성 산도. 와인에 함유된 아세트산의 양. 너무 높으면 불쾌한 식초맛이 남3. citric.acid: 구연산. 소량으로 발견되며, 와인에 풍미를 더할 수 있음.4. residual.sugar: 잔여 당분. 발표가 멈춘 후 남은 설탕의 양, 1g/L 미만의 와..

[데이터 과학책 정리] 3. R에서 data 불러오기 (csv 파일, 큰 외부 파일, 엑셀 파일)

csv 파일이 가장 상세히 설명될 예정이다. 큰 외부 파일, 엑셀 파일 불러오는 방법은 아래에서 간단히 다루도록 하겠다.  1. 데이터 다운 구글에 'uci 머신러닝 리포'를 검색한 후 제일 상단에 뜨는 영어 사이트에 들어간다 데이터 다운 (필자는 실습용이지만 재밌어보이는 걸로 고름.  와인 품질 데이터 다운 받음)csv 파일 열어서 상태 확인해줌 (생각보다 예쁘게 정리 안되어있음)이 파일 자체를 고치진 말고 R에서 불러올 때 고쳐서 불러오면 된다.다음 단계에서 알아보도록 하자.   2. 데이터 잘 불러오기  R을 실행한다  > read.csv()와 read.table()로 사용할 수 있는데, read.csv()는 read.table() 함수를 실행하되 header=TRUE, sep=","  옵션이 기본..

[데이터 과학책 정리] 2. 데이터 과학자가 갖춰야 할 능력

1. 실제적인 문제를 통계적으로 표현2. 컴퓨터 도구를 사용하여 시각화와 데이터 가공과 모형화 하기3. 그를 이용하여 실제적인 언어로  의미있는 결과를 만들어내는 능력4. 협업 능력, 소통 능력(읽고 쓰기 중요)5. 인문학적 지식, 사회 전반에 관한 관심과 폭넓은 독서 (행동 심리학, 경제학, 기술서 등의 논픽션 양서)

[데이터 과학책 정리] 1. 데이터 과학의 전반적인 과정

데이터 과학: 데이터를 사용하여 질문에 대한 합리적인 답을 내릴 수 있게 해주는 활동질문 ex) 병원 치료율을 높이는 방법은?, 비싼 와인이 더 맛있을까? 1. 문제 정의현실의 구체적인 문제를 명확하게 표현하고 통계적, 수리적 언어로 번역하는 작업ex) 어떤 변수들이 주택 가격을 결정 짓는지 알고자 할 때, 얼마나 안전한지, 상업지구인지, 학군이 좋은지, 가을 바라보는 전망 좋은 곳인지, 공장이 근처여서 공기가 좋지 않은지 등등의 변수를 고려해야 함.--> 문제 파악 후 수집해야 할 변수 정하기  2. 데이터 정의변수, 지표 등을 정의  3. 실험계획 or 표본화실험 계획: 실험/통제 집단을 어느 정도 크기로 정의할지를 정하는 것 같은 문제를 결정하는 분야표본화: 모집단을 대표하는 표본을 얻기 위한 것(..