MS 오피스 엑셀 2007을 이용한 기술통계 분석(도수분포표,박스그림,왜도,첨도 등)
*영*
다운로드
장바구니
소개글
통계학은 특정 대상이나 분야에 대하여 적절한 데이터를 수집하고 이를 정리, 계산, 분석하여 복잡한 문제에 대한 의사결정이나 미래예측을 하는 학문입니다. 이러한 성격을 가진 통계학은 크게 두 분야로 나눌 수 있습니다. 하나는 자료를 수집, 정리하여 표나 그래프로 만들고 평균, 분산, 최빈값 등을 계산함으로써 자료의 특성을 쉽게 파악할 수 있도록 하는 기술통계분야입니다. 그리고 다른 하나는 수집된 표본자료의 각종 통계량을 근거로 모집단의 모수에 대한 예측을 실시하고 의사결정을 하는 추측통계분야입니다.본 자료에서는 통계학의 두 분야 중 전통적이며 데이터 분석의 기초에 해당하는 기술통계(descriptive statistic)분야에 대하여 살펴보기로 합니다. 기술통계학은 우리가 초, 중학교의 수학시간에 배운 통계파트의 내용과 유사하며 본 자료에서는 기술통계량에 대한 기본 개념을 설명하고 각 기술통계량을 EXCEL 2007의 함수와 데이터분석 기능을 이용하여 계산하는 방법에 대하여 설명합니다
목차
1.기술통계란?2.도수분포 분석
2.1 기초데이터
2.2 도수분포표 및 도수분포그래프 작성
3.데이터 집중화 경향 분석
3.1 기초데이터
3.2 산술평균
3.3 최빈값
3.4 중앙값
3.5 평균, 최빈값, 중앙값 비교
3.6 백분위수와 사분위수
3.7 상자그림 그리기
4.데이터 산포 경향 분석
4.1 분산, 표준편차 및 범위
4.2 변동계수
5.데이터 분포모양 분석
5.1 왜도(skewness)
5.2 첨도(kurtosis)
6.엑셀의 데이터분석 기능 이용
본문내용
통계학은 특정 대상이나 분야에 대하여 적절한 데이터를 수집하고 이를 정리, 계산, 분석하여 복잡한 문제에 대한 의사결정이나 미래예측을 하는 학문입니다. 이러한 성격을 가진 통계학은 크게 두 분야로 나눌 수 있습니다. 하나는 자료를 수집, 정리하여 표나 그래프로 만들고 평균, 분산, 최빈값 등을 계산함으로써 자료의 특성을 쉽게 파악할 수 있도록 하는 기술통계분야입니다. 그리고 다른 하나는 수집된 표본자료의 각종 통계량을 근거로 모집단의 모수에 대한 예측을 실시하고 의사결정을 하는 추측통계분야입니다.본 자료에서는 통계학의 두 분야 중 전통적이며 데이터 분석의 기초에 해당하는 기술통계(descriptive statistic)분야에 대하여 살펴보기로 합니다. 기술통계학은 우리가 초, 중학교의 수학시간에 배운 통계파트의 내용과 유사하며 본 자료에서는 기술통계량에 대한 기본 개념을 설명하고 각 기술통계량을 EXCEL 2007의 함수와 데이터분석 기능을 이용하여 계산하는 방법에 대하여 설명합니다
- 기술통계관련 주요용어
. 모집단: 특정 연구의 대상이 되는 모든 관측값이나 측정값
. 표본: 모집단에서 실제로 추출한 관측치나 측정값으로 모집단의 부분집합
. 모수(parameter): 모집단을 대상으로 추출한 수치적 지표(예: 모평균, 모분산 등)
. 통계량(statistic): 모집단에서 추출한 표본의 특성을 나타내는 수치적 지표(예: 표본
평균, 표본 분산 등)
. 질적 자료(qualitative data): 관측값이 속하는 범주의 이름 또는 특정 숫자의 모임 등을
지칭하며 분류 자료(categorical data, 범주형 자료)라고도 함(예: 성별구분, 직업분류,
혈액형 분류, 계급분류거주지역 등)
. 양적 자료(quantitative data): 수치로 기록되는 모든 데이터로 각종 계산이 가능함(예:
평균기온, 시험점수, 국민총생산 등)
기타 더 상세한 기술통계관련 용어와 그에 대한 설명은 본 자료의 본문에서 추가하기로 하며, 이제부터 엑셀 2007로 가상의 데이터를 이용한 각종 기술통계 분석을 해보겠습니다.
- 평균, 최빈값, 중앙값 비교
평균, 최빈값, 중앙값은 모두 특정 관측자료에 대한 대표값입니다. 각 값들이 구해지는 특징을 보면 평균은 값과 도수를 고려하고 있고, 최빈값은 자료의 빈도를 고려하며, 중앙값은 자료의 크기순서를 고려하고 있습니다. 대표값중에서 평균이 자료의 정보를 가장 많이 이용하고 있어 일반적으로 가장 많이 사용하는 대표값입니다.
그러나 자료가 다음의 특징을 가질 경우 평균보다는 중앙값이나 최빈값을 이용하는 것을 신중히 고려할 필요가 있습니다.
. 데이터의 양이 매우 적을 경우
. 극단적으로 크거나 적은 값이 있을 경우
. 데이터가 한쪽으로 치우진 경우(분산이 매우 큰 경우)