표본 추출
모집단의 데이터를 분석하기 위해서 표본조사를 진행한다.
모집단 내의 모든 요소를 분석하는 전수조사와 달리 표본조사는 일부 표본을 분석하여
전체 모집단 요소의 특징을 찾아내는 특징을 가진다. 이런 표본 추출 전 필수적인 과정 중 하나가 무작위추출이다.
대표 표본추출 VS 무작위 표본추출
표본 추출은 단순 통계학 뿐만 아니라 시장조사, 여론조사 등 데이터를 분석할 필요가 있는 곳이라면 어디서든 필요하다.
표본 추출 또한 2가지 범주로 구분 할 수 있다. 대표 표본 추출과 무작위 표본 추출이다.
우리가 통계학 101 책을 통해 배운 내용은 무작위 표본추출에 가깝다.
대표 표본 추출 | 전체 모집단 표현을 위해 <그룹을 대표하는 개인>을 추출 | 모집단 자체가 특정 요소를 띄는 집단에서 도움이 됨. 또한 다른 특성들을 통한 부분 세분화가 가능하다. |
무작위 표본 추출 | 전체 모집단을 표현하기 위해 무작위로 <개인> 추출 | 전체 모집단에 대한 광범위한 결론 도출이 가능. |
확률 표본추출 VS 비확률 표본 추출
확률 표본 추출 | 단순 무작위 추출 | 말 그대로 단순 무작위로써 난수를 사용하여 모든 요소에 대하여 공평한 완전 무작위 추출이 가능하다. |
층화추출 | 모집단 내에 층을 먼저 나눈 후, 각 층에서 무작위로 표본 추출을 한다. 각 층의 표준편차가 모집단의 표준편차보다 낮을 경우 오차한계 축소 가능. |
|
계통추출 | 모집단 내의 무작위 시작점을 설정하고, 일정 범위마다 무작위 표본을 추출. 모집단 내에서의 독립적인 요소들을 추출할 수 있으며 단순 무작위 추출보다 비용이 절감됨. |
|
군집추출 | 층화추출과는 다르게 모든 요소에 대하여 층을 나누지 않고, 하위 그룹을 만들어 표본 추출. 시간과 비용을 절약할 수 있으며 데이터셋이 클수록 용이. | |
비확률 표본 추출 | 할당 표본 추출 | 표본을 추출하는 과정에서 연구자가 임의로 모집단을 조작하여 추출하는 방법. 모집단 내의 서로 다른 많은 유형이 존재하는 경우 용이함. |
편의 표본 추출 | 무작위 추출과는 다르게, 조사자가 임의로 다가가 조사하는 방법. 데이터 유형에 따라 무작위 추출과 비슷한 성능을 낼 수 있으며, 데이터 신뢰성을 위해 노력해야 함. | |
눈덩이 표본 추출 | 추출하고자 하는 데이터가 1) 수집하기 어렵거나 2) 숨겨진 모집단일 경우 유리하다. 기존 모집단에서 추가적으로 데이터를 연결함으로써 생기는 데이터 요소간의 구조젹 편향을 조사함. | |
의도적 표본 추출 | 연구자가 전체 모집단의 특성을 대표하는 표본을 임의로 지정하는 방식으로 연구자의 많은 개입이 들어가며 '판단 표본추출', '전문가 표본추출'로도 불린다. |
- 눈덩이 표본 추출법
- 장점 :
1. 응답자의 사생활 보호 가능
2. 무작위 표본 추출과 비교하여 비용 및 시간 절약 가능 - 단점 :
1. 표본 추출 시 초기 단계에서 어려움을 겪음.
2, 추출한 표본의 대표성이 약할 수 있기 때문에 일반화 과정이 어려움.
3. 계량적 분석이 어렵다. (요소 간의 관계를 나타내기 때문에)
- 장점 :
데이터를 가공하는 과정에 있어서 판단해야 할 중요한 요소 중 하나는 도메인 지식을 활용하는 것이다.
마찬가지로 표본 추출과정에서도 수집하고자 하는 데이터 유형에 맞는 표본 추출을 선택하는 것이 중요하다.