상세 컨텐츠

본문 제목

[확률과 통계]6장. 기술통계학

Computer Science/확률과 통계

by Na느님 2023. 10. 26. 16:04

본문

  • 이 포스트는 '공학인증을 위한 확률과 통계 제 4판'을 참고하여 작성되었습니다.

 

 

6.1 기술통계학

모든 대상을 상대로 조사하는 방법을 전수조사(census)라 한다.

개개의 요소들이 선정될 가능성을 동등하게 부여하여, 객관적이고 공정하게 일부의 요소만을 선택하여(random sampling) 조사하는 방법을 표본조사(sample survey)라 한다.

 

통계실험의 모든 대상(전수조사 대상)들의 집합을 모집단(population)이라고 하고, 조사 대상들의 특징들의 집합을 자료집단(data set)이라고 한다.

집단 내의 개개의 성분을 자료(data)라 하고, 조사 결과를 관찰값(observation)이라고 한다.

 

한편, 표본조사를 위해 모집단으로부터 추출된 일부 대상들의 집합을 표본(sample)이라고 한다.

 

 

6.2 자료의 정리

혈액형, 지역명과 같은 자료는 숫자에 의하여 표현되지 않는데 이러한 자료를 질적 자료(qualitative data) 또는 범주형 자료(categorical data)라고 한다.

반면에 키, 몸무게와 같이 숫자로 표현되고 숫자가 의미를갖는 자료를 양적 자료(quantitative data)라 한다.

양적 자료는 이산적일 수도 있고, 연속적일 수도 있다.

 

6.3 위치척도

{양적 자료의 특성을 수치에 의하여 제공하는 두 종류의 척도에 대하여 살펴본다. (6.3과 6.4)}

여기에서는 위치척도에 대해 알아본다.

 

<평균>

모든 측정값을 더한 뒤 전체 도수로 나누어 얻어지는 값을 평균(average)이라고 한다.

모집단의 평균은 모평균(population mean)이라고 한다.

표본의 평균은 표본평균(sample mean)이라고 한다.

 

<절사평균>

특이값을 제거해 내고 평균을 계산하여 나온 값을 절사평균(trimmed mean)이라고 한다.

보편적으로 가장 작은 데이터 10%와 가장 큰 데이터 10%를 제거한 10%-절사평균을 사용한다.

 

<중앙값>

관찰값을 크기 순으로 나열했을 때 중앙에 위치하는 값을 중앙값(median)이라 한다.

이 때 관찰값의 갯수가 홀수이면 한 가운데에 있는 값을 선택하고, 짝수이면 가운데 있는 두 수의 평균이 중앙값이 된다.

 

<최빈값>

관찰값들 중에서 가장 많이 측정된 관찰값을 최빈값(mode)이라 한다.

 

mean, median, mode 중에서 가장 적합한 척도는 무엇인가? 사실 상황에 따라 다르다. 특이값이 있으면 mean보다는 median이 더 중심을 잘 나타낸다.

 

 

6.4 산포의 척도

ㄴㄴㅇ

 

 

 

 

 

 

 

 

 

 

관련글 더보기