통계학
정의 : 통계학은 관찰 및 조사로 얻을 수 있는 데이터이다.
응용 수학의 기법을 이용해 수치상의 성질, 규칙성 또는 불규칙성을 찾아내며
통계적 기법은, 실험 계획, 데이터의 요약이나 해석을 실시하는 데 있어서의 근거를 제공하는 학문이다.
통계학자들은 전체인구(인구조사를 하는 기업)에 대한 데이터를 편집한다. 이것은 정부의 통계 관련 법률요약집 같은 조직화한 방법으로 수행될 수도 있다. 기술통계학은 모집단의 데이터를 요약하는 데 사용된다.
도수 및 비율 (경주 등) 범주 형 데이터를 설명하는 측면에서 더 유용할 동안 수치 기술자는 연속적인 데이터 유형(소득 등)에 대한 평균과 표준 편차를 포함한다. 데이터 분석 방법 엄청난 자료가 연구되는 현대 사회에서 경제지표연구, 마케팅, 여론조사, 농업, 생명과학, 의료의 임상 연구 등 다양한 분야에서 응용되고 있는 통계는 단연 우리 사회에서 가장 필요하고 실용적인 학문이라고 할 수 있다.
통계학은 응용수학(應用數學, applied mathematics)의 한 분야로써 관찰 및 조사를 통해 얻을 수 있는 불균형적인 데이터로부터 응용수학의 기법을 이용하여 데이터의 성질, 규칙성 또는 불규칙성을 찾아낸다.
내용 :
통계학은 농업, 생명과학(生命科學, life science), 환경과학(環境科學, environmental science), 의학(醫學, medicine), 보건학(保健學, health science), 사회학(社會學, sociology), 심리학(心理學, psychology), 역사학(歷史學, history as science), 인류학(人類學 , anthropology), 언어학(言語學, linguistics), 스포츠, 관광, 경제, 경영 등 거의 모든 학문 분야 및 실생활에 다양하게 사용되고 있다.
특히 통계학은 데이터를 통해 기술하고 분석하며 추론하는 일과 관련된 수학 분야다. 추론 또는 귀납적 추리는 특수 사실로부터 일반적 주장을 끌어내는 논법을 말한다. 예를 들어 여러분이 어떤 도시에 사는 1000명의 사망 연령을 알고 있다면, 이 특수한 데이터를 통해 그 도시 전체 인구의 기대 수명에 대한 일반적 정보를 추론할 수 있을 것이다.
데이터를 통해 기술하고 분석하며 추론하는 일과 관련된 수학 분야다. 추론 또는 귀납적 추리는 특수 사실로부터 일반적 주장을 끌어내는 논법을 말한다. 예를 들어 여러분이 어떤 도시에 사는 1000명의 사망 연령을 알고 있다면, 이 특수한 데이터를 통해 그 도시 전체 인구의 기대 수명에 대한 일반적 정보를 추론할 수 있을 것이다.
19세기 초, 베이즈의 방법(분석법)은 천문학에서 오차의 이론인 순수 통계학이 첫 번째 꽃을 피우기 위한 토대를 마련했다. 그 시기의 천문학자들은 여러 관측자의 데이터를 통합함과 동시에 천문학에 영향을 미쳤던 다양한 관측 오차들을 인정함으로써 자신들의 학문에 대하여 광범위하면서도 매우 엄밀한 토대를 마련하는 일에 관심을 가졌다.
사실 망원경으로 별을 관측하는 것은 의외로 주관적이다. 따라서 프랑스의 피에르 시종 라플라스(Pierre Simon Laplace, 1749~1827)와 독일의 카를 프리드리히 가우스(Carl Friedrich Gauss) 등의 수학자들은 오차 분포에 대한 아이디어를 도입한 영국의 통계학자 토머스 심프슨(Thomas Simpson, 1710~1761)이 말한 “장비와 감각기관의 결함으로 발생하는 오차들을 줄이기 위해” 확률 수학을 적용했다.
데이터 처리 과정은 크게 3단계로 나뉜다.
1. 데이터를 수집하는 단계
데이터(data), 사전적 의미로는 ‘입론(立論)의 기초가 되는 자료’ 또는 ‘관찰이나 조사에서 얻은 사실’을 말한다. 기본적인 과학적 작업의 제1단계는 데이터 자료의 수집과 분석이다. 데이터 분석의 어려움에 비해 데이터 수집은 비교적 용이하다고 생각하는 경향이 있는데 그것은 잘못된 것이다. 왜냐하면 적절하고 정확한 데이터를 수집하기는 실로 어렵고 세심한 주의가 있어야 하는 중요한 작업의 하나이기 때문이다. 가령 최신의 통계 기술을 구사하여 분석을 실행해도 데이터의 타당성이 결여되어 있거나 부정확하다면 유의한 결론을 얻을 수 없다. 이것은 GIGO(Gar bag In, Garbag Out) 원칙으로서 알려져 있다. 즉, ‘만일 데이터가 정확하지 않으면 결론도 신뢰할 수 없다’는 것이다.
2. 데이터를 분석하는 과정
데이터 분석을 하면서 설득하고자 하는 주제를 만들거나 시각화해 결론을 낼 수 있다. 데이터의 분석에서 R와 파이선은 필수이다. 최근 데이터 분석을 이야기할 때 빠지지 않고 등장하는 것이 바로 R와 파이선이다. R와 파이선은 각각 통계 언어이자 프로그래밍 언어다. 사실 비전공자가 프로그래밍 언어에 바로 도전하는 것이 말처럼 쉽지 않다. 어느 전문가는 “현장에서 실무를 다루시는 분 가운데 R나 파이선을 자유자재로 이용하는 사람들은 드물다”라며 “R로 넘어가기 전에 엑셀 같은 익숙한 도구를 이용해 먼저 데이터 분석을 시작할 것을 권유한다”라고 설명했다. 비교적 학습하는 데 부담이 적은 엑셀이나 구글 애널리틱스를 이용하고, 이러한 도구로 해결하지 못하는 문제가 발생했을 때 R나 파이선으로 넘어가라는 얘기다.
또 다른 과정은 RFM 분석과 데이터 마케팅이다. RFM은 ‘Recency, Frequency, Monetary’의 약자다. 고객이 얼마나 최근에(Recency) 물건을 구입했는지, 얼마나 자주(Frequency) 우리 제품을 구매했는지, 결제한 제품의 총가격(Monetary)이 얼마인지 데이터를 두고 분석하는 방법이다. 이 전문가는 “RFM은 엄청난 통계학적 지식이 필요 없는 분석 방법으로 최댓값, 최솟값, 비율 정도만 계산할 수 있으면 쉽게 접근할 수 있다”라고 말한다.
3. 데이터를 준비하고 정제하는 과정
데이터는 보통 여러 부서에서 받아 취합한다. 받은 파일을 열어보면 데이터의 포맷은 제각각이고, 특성이나 구조가 다른 경우도 많다. 심지어는 오류도 섞여 있다. 주소 데이터를 어떤 곳은 ‘서울특별시’라고 표기하고 어떤 곳은 ‘서울’ 혹은 ‘서울시’라고 표현한다. 이러한 것을 통일하고 사용할 수 있게 만드는 게 바로 정제 단계다. 사실 정제 단계는 데이터 분석 전체 단계에서 가장 시간과 노력이 많이 들어가는 부분이다. 데이터 규모가 작다면 정제 단계를 한 사람이 맡을 수 있지만 데이터가 아주 많은 상황이라면 개인이 아닌 팀 단위의 지원이 필요하다.
공부해야 돼