01장 통계학이란?
1.1 데이터를 분석하다.
데이터 : 원하는 대상을 관측 및 측정함으로써 얻을 수 있는 대상의 정보
하지만 데이터 자체만으로는 가치가 없을 뿐 아니라, 무엇을 의미하는지 이해하기 어렵다.
따라서 데이터 분석을 통해 성질을 파악하고 이를 활용할 수 있다.
데이터 분석의 목적
- 데이터 요약
방대한 양의 raw data를 사람이 이해할 수 없기에 이를 요약하고 관리해야 한다.
- 대상 설명
데이터가 가진 성질과 데이터 간의 관계성을 명확히 밝혀 상관관계를 이해한다.
이런 관계성을 바탕으로 새로운 데이터를 찾아내거나 객관적 평과에 사용할 수 있다.
- 인과관계 : 독립변인이 변화화면 종속변인도 따라 변화하는 관계
- 상관관계 : 한 쪽이 증가하면 다른 한 쪽도 증가하는 관계
- 미지의 데이터 예측
이미 존재하는 데이터를 바탕으로 추후의 얻게 될 데이터를 예측할 수 있다.
대표적인 예시로 기계학습이 있으며, 데이터의 추이를 분석하여 예측을 용이하게 한다.
1.2 통계학의 역할
산포(dispersion) : 퍼져있는, 분포되어있는 데이터
실생활의 데이터를 보면 한 곳에 몰려있지 않고 넓은 범위에 분포되어 있는 경우가 많다.
이런 산포는 특정 부분의 대상이 가진 성질과 관계성을 분확실하게 하여 오류가 발생하게 한다.
따라서 이런 문제를 해결하기 위해 확률론을 사용한다.
확률론 : 데이터 퍼짐 혹은 불확실성을 확률로 나타내는 방법
1.3 통계학의 전체모습
기술통계(descriptive statistics)
수집한 데이터를 정리하고 요약하는 방법.
데이터의 특성과 경향 파악 가능.
추론통계(inferential statistics)
수집한 데이터로부터 역으로 데이터의 발생원을 추정하는 방법이다.
확률 모형 : 가능한 확률 정보를 분석하고 이를 가시화한 모델
통계적 추론 : 데이터에서 가정한 확률 모형의 성질을 추론하는 방법으로 확률적인 계산하에 데이터를 분석한다.
가설검정 : 확률 모형 내에서 세운 가정과 실제 데이터가 얼마나 일치하는지를 검사한다.
데이터의 특성에 영향을 주는 여러 요소들이 있기 때문에 이를 잘 분리하여 데이터를 분석하는 것이 중요.
2장 모집단과 표본
2.1 데이터 분석의 목적과 알고자 하는 대상
데이터 수집을 하기 위해서는 데이터의 목적을 정하고 그에 따라 필요한 수집 대상을 정해야 한다.
목적이 설정되어야지만 수집할 데이터의 종류를 찾아보면서 더 적합한 데이터셋을 구할 수 있다.
2.2 모집단
모집단 : 통계학 내에서 알고자 하는 대상 전체를 이르는 말
하지만, 데이터 분석 목적에 해당하는 데이터일지라도 수집할 수 없는 데이터까지 포함하진 않는다.
- 모집단의 크기 : 모집단의 포함된 요소에 따라 정해진다.
- 유한모집단 : 모집단 중 한정된 요소만 포함한 것을 의미한다. 즉 측정 가능한 범위 내의 요소를 포함한 모집단을 유한모집답이란 한다.
- 무한모집단 : 모집단 중 포함된 요소의 개수가 무한한 것을 의미하며 확률적으로 무한한 경우의 수를 조사한다.
2.3 모집단의 성질
모집단의 성질 : 모집단 내의 요소들을 분석하여 모집단 자체가 가지는 성질을 분석하며 분석이 더욱 용이해진다.
모집단의 성질을 분석하기 위한 여러 조사방법이 존재한다.
- 전수조사
유한모집단일 경우에 사용가능한 전수조사는 획득한 모든 데이터의 특징을 파악하여 성질을 분석한다.
데이터 자체의 특징을 설명하기에 기술통계라고도 불린다.
- 전수조사의 어려움
모든 데이터를 조사할 경우 정확도는 올라가겠지만 비용-시간 면에서 부담이 증가한다. 또한 시간에 따라 데이터셋의 크기가 달라지는 경우 모든 경우의 수를 분석하는 것이 불가능한 경우도 있다.
- 표본조사
전체를 분석하지 않고 모집단의 일부를 분석하여 전체의 특징을 추정하는 방법이 바로 추론통계이다.
이때, 사용하는 일부 모집단을 표본이라 하며 확률적으로 분석된다.
- 표본크기
표본에 포함된 요소의 개수를 기반으로 표본의 크기가 정해진다.
표본크기에 따라 확실성 혹은 가설검정 결과가 달라지기에 통계분석 과정에서 신중하게 설정해야 한다.
통계분석의 기초
3.1 데이터 유형
변수 : 공통의 측정 방법으로 얻은 같은 성잴의 값을 변수라고 한다.
통계학에서는 변수의 개수를 차원이라 표현하기도 하며 데이터의 특성이 많을수록 고차원의 변수가 된다.
고차원의 데이터가 될 수록 분석 하기가 어려워진다.
데이터 유형
- 양적 변수 (수치형 변수) : 숫자처럼 나타낼 수 있는 변수
- 이산형 : 측정 값이 점점이 있는 변수로 숫자데이터 등이 있다.
- 연속형 : 간격없이 이어지는 값으로 높은 정밀도가 이용된다.
- 질적 변수 (범주형 변수)
- 숫자가 아닌 범위로 나타나는 변수를 질적변수 혹은 범주형 변수라고 하며 양적 변수처럼 대수 비교를 하거나 평균값 등 수치 계산을 할 수 없다.
3.2 데이터 분포
분석한 데이터를 시각화하여 잘 표현하는 것 또한 매우 중요하다. 데이터의 경향을 한 눈에 파악할 수 있기 때문이다.
이때, 도수-빈도-횟수 등을 나타내는 그래프인 도수분포도(히스토그램)이 많이 사용된다.
- 이산형 양적 변수의 히스토그램
가로축 숫자 : 세로축 개수를 나타내는 형식으로 히스토그램의 높이를 통해 빈도수 파악이 가능하다.
- 연속형 양적 변수의 히스토그램
연속형의 경우 이어진 값이 나타내기 때문에 구간을 나누어 범위의 넓이를 지정한다.
이를 구간폭이라고 하며 범위의 정의에 따라 그 값이 달라진다.
- 범주형 변수의 히스토그램
가로축 범주 : 세로축 범주에 속하는 개수를 나타내며 대소관계가 없기에 편집이 자유롭다.
3.3 통계량
통계량 : 수집된 데이터를 여러 수식을 거쳐 계산하여 얻은 값
기술통계량(요약통계량) : 데이터가 가진 성질 자체를 요약하는 통계량
최근에는 데이터의 성질을 잘 나타내는 기술통계량을 나태내는 표현 방법이 다양해짐.
- 대표값 : 데이터가 분포에서 어느 부근에 위치하는지를 표현한다.
- 평균값 : 가장 많이 쓰이는 대표값으로써 표본평균이라고도 불린다.
- 중앙값 : 데이터를 크기순으로 나열했을 때, 가운데 위치한 값으로 데이터의 크기와 상관없이 순서에 따라 나열된다.
- 최빈값 : 데이터 값 중 가장 많이 나타나는 숫자를 나타내며 어떤 값이 가장 전형적이지 판단할 때 사용된다.
- 분산과 표준편차
대푯값이 데이터가 어느 부위에 있는지 나타냈다면 분산은 어느 정도로 데이터가 퍼져있는지를 나타낸다.
따라서 표본분산, 표본표준편차라고도 불린다.
분산은 다음과 같은 특징을 가지며, 이상치 등에 영향을 쉽게 받을 수 있다. 이러한 분산을 표현하기
위한 다양한 시각화 방법이 있다.
이런 분산에서는 이상값을 없애 데이터를 고르게 표현하는 것이 중요하다.
대체로 이상값은 평균값에서 표준편차가 2배~3배 정도의 값을 나타내며 이를 없애 데이터 분석 결과 전체에 영향을 주는 것을 억제한다.
3.4 확률
확률 : 불확실한 사건의 발생 가능성을 숫자로 표현한 것. 즉, 사건이 발생할 가능성을 수치적으로 표현한다.
- 확률변수 : 확률이 달라지는 변수를 말하며 확률변수가 실제로 나타난 값은 실현값이라고 한다.
- 확률분포 : 확률변수 / 확률변수 발생 가능성을 데이터로 나타낸 경우로 확률변수의 종류에 따라 형태가 달라진다.
- 확률밀도함수 : 확륩분포에서 확률을 계산하는 함수로써 상대적인 발생 값을 나태낸다.
- 추론통계와 확률분포 : 확률처럼 다루기 어려운 데이터에 대하여 표본을 사용하여 값을 추정하는 방법으로 모집단을 이해하는 과정에서 큰 효과를 가진다. 이를 위해 기대값을 사용하여 확률밀도함수의 성능을 표현한다.
- 동시확률분포 : 확률변수 2개가 복합적으로 작동하는 것을 의미하며 이때, 두 변수의 관계를 독립이라 한다.
- 조건부확률 : 동시확률분포 내에서 하나의 변수만 나타날 경우 다른 한 쪽을 조건부확률이라 한다.
3.5 이론적인 확률 분포
확률 분포는 수식으로 표현되며 분포의 형태를 정하는 것은 파라미터 즉 모수이다.
- 정규분포
평균값과 표준편차로 이루어지며 평균값에서 가장 많고 평균에서 멀어질수록 그 값이 작아진다.
- 표준화
정규분포 내에서 데이터의 값이 평균과 얼마나 떨어졌느냐에 따라 값을 변환하여 나타낸다.
이를 통해 분포 안에서 어디에 위치하는지를 알 수 있다.