본문 바로가기

Study/방법론

데이터 설명과 시각화

데이터에 대한 그래프와 표식 설명

 

빈도표

 

데이터에서 변인에 대한 각 측정 또는 ‘점수(score)'가 발생한 횟수를 제시해주는 표이다. 우수한 빈도표는 변인에 대한 측정의 발생 횟수 이상의 것을 제공할 수 있다. 때때로 빈도 분포라고 불린다.

 

히스토그램

 

히스토그램은 빈도들을 다른 높이의 막대들로 표현함으로써 빈도 정보를 제시하는 양적 측정의 분포를 시각적으로 제시해주는 방법이다. 




히스토그램은 분포의 형태를 나타낸다. 측정의 분포를 설명하기 위해 4가지 특성들을 사용한다. 좌우대칭, 왜도, 봉분표, 첨도이다.

 

좌우대칭


측정의 분포는 좌우대칭과 비대칭이 있다. 히스토그램의 왼쪽 부분과 오른쪽 부분의 이미지가 다소 비슷하다면 분포는 좌우대칭이라고 할 수 있다. 만일 분포가 비대칭이라면 양쪽 부분은 서로 거울 이미지를 나타내지 않을 것이다. 통계 이론에서는 많은 좌우대칭 분포들을 널리 사용하지만 실제 연구의 측정 분포에서 완벽한 좌우대칭이 잘 되지 않을 것이다.

 

왜도


실수 값 확률 변수의 확률 분포의 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다.

점수들이 측정 척도의 낮은 점에 운집하는 경향이 있다면, 분포는 정적으로 치우쳐져 있다(또는 오른쪽으로 치우쳐진)고 말할 수 있다. 대조적으로 부정적으로 치우쳐진(또는 왼쪽으로 치우쳐진)분포는 그 반대이다.

 

봉분포


만약 점수들의 분포에서 하나의 명확한 정점이 있다면 분포는 단일봉이 된다. 만일 2개의 정점들이 있다면 양봉이 되며 2개 이상의 구별된 정점들이 있다면 다중봉이라고 한다.

 

첨도


측정들이 분포의 중앙으로 무리를 짓거나 극단적인 점으로 무리를 짓는 정도의 측도로 논의한다. 첨도가 크면 클수록, 더욱더 ‘뾰족한’분포가 된다. 높은 첨도를 갖는 분포를 때때로 급첨이라고 한다. 대조적으로 완첨 분포는 작은 첨도를 가지며 급첨 분포에 비해 분포의 극단점 또는 ‘꼬리’에서 상대적으로 많은 측정들을 갖는다.  


정규분포

정적으로 치우친 분포


부적으로 치우친 분포




중심경향성 측도

 

최빈값


중심경향성의 가장 간단한 측도이다. 분포의 최빈값은 데이터에서 가장 자주 발생한 측정이다.

 

중간값


중간값은 중심경향성의 측도로서 최빈값보다 더 넓게 사용된다. 중간값은 분포에서 순서의 ‘중간’을 수량화하는 것이다.

 

예) 1, 3, 4, 5, 5, 5, 6, 7, 7, 8, 9, 10, 10

 

여기에서 최빈값은 5이며 중간값은 6이다.

 

산술적 평균(arithmetic mean)


변인에 대한 측정들의 합을 합에 기여한 케이스들의 숫자로 나눈 것이다. 따라서 만일 데이터 세트에 n개의 케이스들이 있고, 각 케이스들은 변인 X에 대한 측정값을 가지고 있을 경우 산술적 평균은 다음과 같다.


평균은 8이 된다.


가중평균(weighted mean)


가중평균이란 조사대상의 중요도에 따라 측정값의 가중치를 고려한 평균값을 말하는 것으로서, 단순한 산술평균에 각 측정값별로 가중치를 반영해 준 것이다.



 

예) 국어수업 4시간에 90점, 외국어 3시간에 80점, 수학 1시간에 50점이라고 가정할 때, 가중치 평균은 81.25가 된다.


특이점(outliers)


평균이 가지는 한계점으로 극단적으로 또는 특이하게 크거나 작은 측정들을 말한다. 중간값과 최빈값의 경우 이런 한계는 문제가 되지 않지만 몇 개의 숫자로 목록을 구성하고 평균을 계산한 후, 목록에 있는 다른 숫자들에 비해 상대적으로 매우 크거나 매우 작은 숫자를 목록에 추가하고 다시 계산한다면, 여러분은 이것을 쉽게 확인할 수 있다.

 

예) 어느 회사의 월 급여가 1백 50만원인 직원이 6명, 2백만원인 직원이 5명, 1천만원인 임원이 2명 있다고 가정을 하고 평균을 구하면 3백만원이다. 이럴 때 300만원은 이 회사의 평균 연봉을 대표한다고 하기에는 무리가 있다.

 

변화측도

 

범위(range)

 

변화량의 가장 간단한 측도이다. 범위는 분포에서 최대 측정과 최소 측정간의 차이로 정의 할 수 있다.

 

예) A - 1,2,3,4,5,6,7,8,9 B - 5,7,7,7,7,7,7,7,13

 

A와 B는 모두 동일한 범위 8을 갖지만 A와 B 측정에서 서로간의 변화의 크기는 다르다.

 

사분위 범위(interquartil range)

 

사분위 범위는 점수 분포의 중간 50% 범위이다. 그렇기 때문에 일반 범위보다 분포 중앙에 좀 더 가까운 측정들 간의 거리를 평가함으로써 범위를 수량화한다. 범위와 달리 사분위 범위는 세트 간에 발생한 측정 변화량의 명확한 차이를 보여 줄 수 있다.

 

예) A - 1,3,4,5,6,7,9 B - 5,7,7,7,7,7,13

 

A의 사분위 범위는 7-3=4인 반면 B의 사분위 범위는 7-7=0이다. 따라서 단지 데이터를 눈대중으로 살펴보면 변화량 측도로서 사분위 범위를 이용할 경우 A의 변화량이 확연히 크다는 것을 알 수 있다.

 

표준편차(standard deviation)

 

평균의 편차는 합리적인 변화량 측도처럼 보이지만 평균 편차의 합은 항상 0이다. 그러므로 평균 편차는 변화량 측도로서 쓸모가 없다. 그래서 표준편차라는 것을 사용한다.

각 측정과 평균 간 차이를 제곱한 평균을 계산하고 이 평균에 제곱근을 씌우면 그 결과는 표준편차가 된다. 이것은 통계학과 커뮤니케이션을 포함한 거의 모든 사회과학에서 변화량 측도로 가장 널리 사용하고 있다. 




공식에서 분모는 n이 아니라 n-1이기 때문에 표준편차는 제곱한 편차의 평균 제곱근과 정확하게 같지 않다는 점을 알아야 한다. 큰 표본의 경우에는 표준편차 게산에서 n 또는 n-1을 이용한 차이가 크지 않다. n-1보다 n으로 제곱한 편차 합을 나눌 유일한 상황은 전체 모집단에 대한 측정을 갖고 있는 경우뿐이다.

표준편차는 합계에 기여하는 대부분의 케이스 숫자로 나눈 합계로서 일종의 산술적 평균이다. 그렇기 때문에 산술적 평균과 거의 동일하게 특이점에 영향을 받는다. 따라서 하나 또는 2개의 극단적인 값들은 일부 특정한 환경에서는 표준편차에 큰 영향을 미칠 수 있다.


분산(variance)

 

분산은 간단하게 말하면 표준편차의 제곱이다. 분산은 자체만으로는 실용적인 해석을 내릴 수 없다. 실용적인 해석을 내릴 수 없다고 해서 그 가치를 평가절하해서는 안된다. 측정들의 변화량 또는 연구 단위들 간 차이를 지칭하기 위해 커뮤니케이션 연구자들은 일반적으로 ‘분산’이라는 용어를 사용한다. 


 

참고문헌

최창현(2011). 『조사방법론 SPSS UCINET 활용』. 경기도 파주: 학현사.

Hayes, A. F.(2005). Statistical methods for communication science. 류성진 옮김

(2011). 『커뮤니케이션 통계방법론』. 서울: 커뮤니케이션북스.

 

웹사이트

http://blog.naver.com/minu_stat?Redirect=Log&logNo=130160527071

http://hmoai.blog.me/50167574967

http://terms.naver.com/entry.nhn?cid=200000000&docId=1055330&mobile&categoryId=200000450

 





'Study > 방법론' 카테고리의 다른 글

분석방법  (0) 2013.11.28
사회조사분석사  (0) 2013.10.07
표본추출  (0) 2013.10.04
신뢰도와 타당도  (1) 2013.10.01
측정의 본질  (0) 2013.10.01