본문 바로가기

Study/방법론

표본추출

1. 표본추출이란?


그림1.1 모집단으로부터 표본추출과정

<출처: Hayes, A. F. (2005). p. 43>


표본이란 연구대상 전체에서 선택된 일부를 말하며, 이런 표본을 선택하는 과정을 표본추출(표집)이라고 말한다. 표본추출에서는 표본이 모집단(전체집단)을 대표할 수 있는지의 여부인 대표성이 가장 중요하다. 표본이 모집단의 속성을 거의 갖고 있다면, 표본의 속성으로부터 도출한 어떤 결과는 모집단에도 그대로 적용할 수 있을 것이다. 이처럼 추출한 표본으로부터 도출할 결과를 통해 모집단의 속성을 추측하는 것을 모집단 추론(population inference)이라고 한다.



그림1.2 표본추출(sampling)과 모집단 추론(population inference)

<출처: 커뮤니케이션 통계방법 핵심개념 (류성진, 미발표 보고서)>


2. 표본추출관련 용어

 

(1) 모집단


연구자가 실제로 관심을 가지고 있는 모든 구성원들의 전체집단을 말한다.

 

(2) 모수


모집단의 속성, 특징을 나타내는 통계값을 말한다.

모수의 예로 모집단의 평균, 표준편차, 상관계수등이 있다.

 

(3) 표본


모집단에서 특정한 추출과정을 통하여 추출된 특정 집단을 말한다.

 

(4) 통계량


표본의 속성, 특징을 나타내는 통계값을 말한다.

통계량의 예로 표본의 평균, 표준편차, 상관계수 등이 있다.

 

(5) 표본추출 프레임


‘표본수집 틀’, 또는 줄여서 ‘표집틀’이라고도 한다. 표집틀은 표본이 추출 될 표본추출 단위에 대한 목록으로 흔히 모집단을 구성하는 요소들의 목록이 된다.

 

3. 표본추출의 장·단점

 

표본조사는 비교적 많은 사람들을 대상으로 많은 양의 자료를 동시에 수집 할 수 있고 자료수집 방법이 체계적이며 객관성이 높다. 규모가 큰 인구집단을 대상으로 자료를 얻고자 할 때 현실적으로 표본조사에 의거하지 않을 수 없다. 대표성만 확보된다면 많은 사람들에 대하여 많은 양의 자료를 얻는 방법으로서 적합하며 모집단에 대하여 일반화 할 수 있는 가능성이 높다. 또한 경제적이며 신속하게 다량의 정보를 확보할 수 있다.

단점으로는 대표성을 확보하는 것이 쉽지 않으며 모집단 자체가 작을 경우에는 표본추출 자체가 무의미하며 표본추출로 인해서 표본오차가 발생한다.

 

4. 표본추출 방법

 

(1) 확률표본추출

 

확률표본추출은 모집단으로부터 표본을 추출할 때 연구자의 자의적 개입없이 무작위로 모집단의 구성원을 추출해내는 방법이다. 그렇기 때문에 확률표본추출을 사용 할 경우, 표본추출 대상자는 모집단으로부터 동일하게 추출될 기회를 갖게 된다.

 

 

① 단순 무작위 표본추출 (Simple Random Sampling)

 

모집단에 있는 모든 대상이 표본으로 추출될 동일한 기회를 갖도록 하기 위하여 주로 난수표(table of random numbers)를 이용하여 표본을 추출하는 방법이다. 난수표는 0에서 9까지의 각 숫자를 동일한 비율로 무질서하게 배열한 표로서, 주로 컴퓨터 프로그램의 특정한 계산 알고리즘을 통해 생산한다. 난수표를 이용하기 위해선 반드시 모집단 대상자에 대한 정보 리스트, 즉 표집틀을 확보해야 한다. 표집틀은 모집단 각 대상자에게 고유한 번호가 지정돼 있어야 한다. 난수표를 사용하여 뽑은 숫자가 모집단 각 대상자에게 부여한 고유 번호와 일치할 경우, 그 대상자를 표본으로 추출하면 된다. 단순 무작위 표본추출은 이상적이나 대부분의 모집단의 경우 표본을 추출할 수 있는 목록이 없기 때문에 실제적으로 진정한 단순 무작위 추출을 한다는 것은 어렵거나 거의 불가능하다.

 

예) 10부제 운행에 대한 자가용 운전자 의식조사를 실시하려고 할 때, 지역은 서울이고 자가용 운전자의 모집단을 50,000명이라고 가정하고 500명을 무작위 추출 할 경우, 컴퓨터에서 50,000개의 난수와 일련번호를 발생시킨 후 50,000개 중 500개를 추출하면 된다.

 

② 계통 무작위 표본추출 (Systematic Rnadom Sampling)

 

체계적 표본추출이라고도 한다. 연구자가 모집단 목록에서 무작위 출발점을 선택하고 그 지점에서 모집단의 k번째인 모든 구성원을 포함한다. 일단 목록의 끝에 도달하면 원했던 표본 크기를 얻게 된다. 모집단이 클 경우에 효과적이고 모집단 전체에 걸쳐 공평하게 표본을 추출할 수 있으므로 단순무작위표본추출에 비해 대표성이 높다.

 

예) 대구 수성구청 공무원의 모집단이 600명이고 100명을 체계적으로 표본추출할 경우, 먼저 표본추출의 간격을 계산합니다. 전체모집단수를 표본의 수(600÷100=6)로 나눈다. 표본추출간격은 6이된다. 조사 담당자는 먼저 임의의 공무원을 1번으로 설정하고 계속적으로 6번째 공무원 마다 표본을 추출하면 된다.

 

③ 층화 무작위 표본추출 (Stratified Random Sampling)

 

모집단을 일정한 기준에 따라 2개 이상의 동질적인 층으로 구분하고 각 층별로 단순무작위추출방법을 적용하는 방법이다. 중요 집단은 빼놓지 않고 표본에 포함시킬 수 있으므로 대표성이 높고, 동질적 대상은 표본의 수를 줄이더라도 대표성을 높일 수 있다는 장점이 있다. 층화 시 모집단에 대한 지식이 필요하고, 근거가 되는 표본추출틀이 필요하며, 없을 경우에는 많은 시간과 노력이 필요하다.

 

예) 현대자동차 아반떼 사용자에 대한 자동차 사용 만족도에 관한 여론조사를 실시하려고 한다. 지역은 서울이다. 서울 지역에서 현대자동차 사용자 모집단을 1만명이라고 가정하고 표본오차범위 내에서 2000명을 표본추출 하였다. 만약 모집단 1만명의 남녀 비율이 7:3이라면 표본 역시 7:3의 비율인 1400명:600명이 된다.



그림4.1 층화표본추출의 예

<출처: 커뮤니케이션 통계방법 핵심개념 (류성진, 미발표 보고서)>

 

④ 집락 표본추출 (Cluster Sampling)


군집표본추출이라고도 하며 모집단의 대상들을 직접 추출하지 않고 모집단의 대상들을 여러 개의 집락(cluster)으로 묶어서 이 집락을 표본으로 추출하여 추출된 군집내의 대상들을 조사하는 방법이다. 이러한 방법은 모집단의 목록이 불완전한 경우, 지리적으로 조사지역이 너무 크게 분산되어 있어 시간과 비용이 많이 소요되는 경우에 매우 유용한 방법이다. 군집 표본추출은 표본추출단위가 개인이 아닌 집락이다.

집락표본추출은 모집단의 구성원들을 확인할 수 있어야 하고, 어떤 특성에 따라 범주화 할 수 있어야 한다는 점에서 층화 표본추출과 비슷하다. 층화표본추출에서는 층화성격을 공유하는 집단을 층이라고 일컫지만 집락 표본추출에서는 이런 집단들을 집락이라고 부른다.

집락표본추출방법의 변형으로 다단계 표본추출방법이 있는데, 이는 2단계 이상 표본추출방법을 거쳐 최종 조사단위를 선정하는 방법이다. 예를 들어 국내 거주자를 대상으로 흡연여부를 조사한다면 먼저 시·도를 무작위로 선정하고 다시 구·군을 추출하고 여기에서 다시 동·읍을 선정한다. 그리고 마지막으로 주민등록부등을 사용하여 특정한 표본을 무작위로 선정하는 방법이다.



그림4.2 다단계 집락표본추출의 예

출처: http://ccnmtl.columbia.edu/projects/qmss/samples_and_sampling/types_of_sampling.html

 

표 4.1 층화표본추출과 집락표본추출의 차이점

<출처: 조사방법론 및 SPSS 통계분석>

 

⑤ 무작위 번호 걸기 (Random Digit Dialing : RDD)

 

도시나 지역 또는 국가의 모집단 목록을 이용하기란 쉬운 일이 아니다. 이럴 때 사람들을 전화번호부를 이용하여 확인할 수 있다는 점을 활용한 ‘무작위 번호 걸기’가 있다. 연구자가 무작위 번호 걸기를 사용하여 무작위 표본을 추출하고자 할 때, 무작위 전화번호로 연락함으로써 사람들과 접촉한다. 전화에 응답하고 선정된 기준을 충족하는 누구라도 표본에 포함시킬 수 있다.

그러나 모든 전화번호가 일반 거주자 번호는 아닐 수 있다. 팩스번호나 업무번호일 가능성도 있다. 그렇기 때문에 원하는 표본크기를 얻기 위해서는 많은 전화를 해야 한다.

이 방법은 대선이나 총선과 같은 선거 여론조사를 위해 리서치 기관에서 주로 사용하는 방법이다. 최근들어 인터넷 전화 사용인구의 증가와 전화번호부에 번호 등재를 원치 않는 가구들이 급속도로 증가하고 있고 휴대전화 이용도가 높을 경우 집 전화 자체가 없는 가구가 있을 경우가 있고, 이 가구들은 모집단에서 배제되기 때문에 연구자가 원하는 표본을 제대로 추출하기는 쉬운 일은 아니다.

 

(2) 비확률 표본추출

 

비확률표본추출은 모집단의 속성을 대표할 수 있는 가능성이 낮고 모집단에 있는 어떤 대상자가 표본으로 선택될지에 대한 가능성을 알 수 없기 때문에 표본추출오류를 산출수 없다. 확률표본추출에 비해 비용이 적데 들고 실행하기 쉽다는 장점이 있다. 실제로 표집틀을 구하기 어려운 경우에 비확률표본추출을 상당한 수준으로 사용하고 있다.

 

① 편의 표본추출 (Convenience Sampling)

 

가까이 있어 손쉽게 접근할 수 있는 사람들을 표본으로 선택한다. 길거리 면접와 같이 우연히 그리고 무계획적으로 표본을 추출하기 때문에 우연표본추출 또는 무계획 표본추출이라고도 불린다. 커뮤니케이션 연구를 포함하여 사회과학 연구에서 매우 일반적으로 사용하지만, 편의 표본에서 정확한 모집단 추론을 내리는 것은 사실상 매우 어려운 일이다. 이 방법은 시간과 비용을 절감하는 장점이 있으나 표본의 대표성을 추정할 수 없다. 그렇기 때문에 조사결과를 일반화하는 것도 무리가 있다. 예를 들면 성인남녀들의 브랜드 인지도 조사를 위해 특정 장소에서 지나가는 행인에게 일정 인원만큼 행하는 조사와 같은 것이다. 신속한 조사결과를 요할 경우에 사용하며 접근이 용이한 조사대상을 선정하므로 표본이 편중되기 쉬우며, 오차의 개입을 방지할 방법이 없다. 그럼에도 불구하고 편의 표본추출은 사전검사(Pretest)나 특정 연구 목적을 위해 매우 자주 사용된다.

 

② 할당표본추출 (Quota Sampling)

 

할당표본추출은 각각의 층이 전체 모집단에서 동일한 비율을 갖는 표본으로 나타나는 층화표본추출과 비슷한 점이 있는 방법이다. 할당 표본추출은 다른 비확률 표본추출에 비해 추출한 표본이 상대적으로 모집단의 속성을 좀 더 많이 반영할 수 있다는 장점이 있다. 할당표본추출은 모집단이 갖는 특성의 비율에 맞추어 표본을 추출하며 마지막 표본추출단계에서 작위적인 방법을 이용한다. 할당표본추출은 표본추출이 쉽고 빠르기 때문에 비용이 적다. 단점은 모집단 분류에 있어 분류자의 편견이 개입되기 쉽고, 마지막 단계에서의 작위적 표본추출로 인해 오차개입 가능성이 높다.

 

예) 대구대학교에서 신입생 5,000명을 대상으로 대학 생활 만족도를 조사하려고 한다. 100명을 표본으로 추출하려고 할 때, 사람이 많은 단대나 학과에 편중 될 가능성이 있으므로 단대별 또는 학과별로 몇 명씩 할당하여 표본을 추출한다.

 

③ 유의 표본추출


판단표본추출 또는 목적표본추출이라고도 불린다. 연구목적에 따라 적절한 해당분야 전문가나 특정한 조직이나 공동체 등 상대적으로 제한된 집단들을 대상으로 연구를 시도 할 때 유용한 방법이다. 유의표본추출은 편의표본추출처럼 적은 시간 및 경제적 비용으로 표본을 추출할 수 있다는 장점이 있으나 표본의 대표성을 보장할 수 없고 표본오차 계산도 거의 불가능하다는 단점이 있다. 편의표본추출은 본 조사 연구 이전에 실시하는 사전조사나 시험조사에 주로 사용한다.

 

④ 지원자 표본추출


지원자 표본추출은 연구에 참여할 대상을 구할 때, 참가 희망 대상자들 표본으로 선정하는 방법이다. 연구자는 연구 대상자가 연구에 강제로 참여하도록 할 수 없기 때문에 지원자 표본추출이라고 볼 수 있다. 수업시간에 먼저 발표하기 위해 “저요, 저요”를 외치는 모습은 지원자 표본추출방법을 설명할 수 있는 가장 쉬운 예가 될 것이다. 지원자 표본추출 역시 편의나 유의 표본추출처럼 표본이 모집단의 속성을 대표할 수 있는 개연성이 매우 낮다는 단점을 가지고 있다.

 

예) TV프로그램 중 전화여론조사를 실시하는 경우가 있다. TV프로그램의 주제를 방송 앞부분에 알려주고 ‘찬성은 1번’, ‘반대는 2번’을 눌러 의견을 내는 간이 여론 조사로 집계결과는 방송의 마지막 부분에 말해준다.

 

⑤ 눈덩이 표본추출


이 방법은 특정 모집단의 구성원을 모집하기가 어려울 경우에 매우 유용하게 사용할 수 있는 표본 추출방법이다. 처음에는 1명 또는 소수의 연구 대상자를 선정하고 그들에게 또 다른 1명이상의 연구 대상자를 소개 받는다. 다시 그 연구 대상자로부터 소개를 받는 방식으로 연구 참여자를 모집하는 방법이다. 이 표본추출은 각 대상자들의 인맥 네트워크를 통해 연구 참여자들을 모집하므로 네트워크 표본추출이라고도 한다. 사회적으로 바람직하지 않는 직종에 근무하는 사람들(마약, 알콜 중독자 등)의 경우 모집단 구성원을 구하기가 어렵기 때문에 이 표본추출방법을 사용하면 매우 유용하다.

눈덩이 표본추출도 다른 비확률 표본추출 방법처럼 비용이 저렴하지만 연구 참여자의 주관적인 판단으로 연구 참여자를 소개하기 때문에 모집단을 대표하기에는 다소 무리가 있다. 



그림4.3 눈덩이 표본추출의 다양한 사례

출처: http://www.experiment-resources.com/snowball-sampling.html

 

 

참고문헌

 

류성진. 커뮤니케이션 통계방법 핵심개념(미발표 보고서)

이종환(2010). 『조사방법론 및 SPSS 통계분석』. 경기도 고양: 공동체.

최창현(2011). 『조사방법론 SPSS UCINET 활용』. 경기도 파주: 학현사.

채서일(2006). 『사회과학조사방법론 3판』.서울: 비엔엠북스

Hayes, A. F.(2005). Statistical methods for communication science. 류성진 옮김

(2011). 『커뮤니케이션 통계방법론』. 서울: 커뮤니케이션북스.

QMSS e- Lessons. available:

http://ccnmtl.columbia.edu/projects/qmss/samples_and_sampling/types_of_sampling.html

Wikipedia(2012).Random number table. available:

http://en.wikipedia.org/wiki/Random_number_table





'Study > 방법론' 카테고리의 다른 글

사회조사분석사  (0) 2013.10.07
데이터 설명과 시각화  (0) 2013.10.07
신뢰도와 타당도  (1) 2013.10.01
측정의 본질  (0) 2013.10.01
1종 오류와 2종 오류의 관계  (0) 2013.10.01