doing data science_ch2
TRANSCRIPT
통계적 추론● 데이터 과학 학습의 적절한 출발점이지 않을까?● 모수(parameter)에 대한 어떤 판단을 내리기 위하여, 모집단(population)에서 표본(sample)을 추출하여 데이터를 얻고 이 데이터를 기초로 하여 통계이론에 의한 결론을 내리는 과정
모집단과 표본
모집단(population): 관심의 대상이 되는 모든 개체의 특성을 나타내는 관측값이나 측정 값의 전체 집합표본(sample): 통계적 분석을 위하여 실제로 관측한 측정값의 집합
빅데이터의 모집단과 표본
● 빅데이터인데 모집단과 표본이 필요한가?○ 응. 데이터와 머신들이 무한하진 않잖아?
● ex) 허리케인 샌디 전후의 트윗 분석에 대한 오판, 47p
● 사실 모집단이 표본이였고 더큰 모집단이 있었어. One more thing. 더큰 모집단이 또있지롱. 그래서 표본을 잘 만들어야....
● 쌓이는 데이터 포맷은 다양
모형화(Model)
● 건축가는 청사진과 3차원 축소 모형, 분자생물학자는 아미노산연결을 3차원화, 데이터 과학자는 데이터의 형태와 구조를 표현하는 수학적 함수로 데이터 생성과정의 불확실성과 무작위성을 포착
● 우선 탐색적 데이터분석(EDA) 부터 시도하면서 그래프를 그리고 선형함수도 적어보고 이것저것 주관적으로 끼워맞춘다.
● 경험이 쌓이면 모형을 만드는 자신만의 툴킷이 생기고 그중 하나로 확률분포를 써라.
● 만들고나면 적합, 과적합이 된다. 적합한 모형을 만들기 위해 R, Python을 이용하자.
모형은 어떻게 만들어요?