2010년 2학기 데이터마이닝 중간시험과제물 공통
메인프리
- 최초 등록일
- 2010.09.30
- 최종 저작일
- 2010.09
- 24페이지/
압축파일
- 가격 9,000원
![할인쿠폰받기](/images/v4/document/ico_det_coupon.gif)
목차
1. 교재 3장 연구과제 3번, 4번, 5번(단, R을 이용할 것)
2. 다음 자료를 이용하여 군집화를 하시오.
(1) 맨해튼 거리를 이용하여 다음 자료의 개체간 비유사성 행렬을 구하시오.
(2) 단일 연결법으로 군집화를 수행하고 나무형 그림을 그리시오.
(3) 완전 연결법으로 군집화를 수행하고 나무형 그림을 그리시오.
(4) 완전 연결법에 의한 군집화 결과를 단일 연결법에 의한 군집화 결과와 비교하시오.
3. 클레멘타인 Telco CAT 자료 셋
(www.knou.ac.kr/~sskim/churnlog.txt)을 이용하여 K-평균 군집분석을 행하고자 한다. 이 자료는 1477명의 고객의 통화관련 자료로서 군집화에 이용될 변수는 장거리통화량(LONGDIST), 국제통화량(international), 로그시내통화량(log10local) 등 3개 변수이다. 먼저 20%의 표본을 랜덤추출하여 계층적 군집분석을 통해서 적정 군집 수를 구한 후, K-평균 군집분석을 실시한 결과를 보이시오.
(SAS, SPSS 또는 R을 이용하여 풀고, 출력결과를 보이기 바람)
본문내용
2. 과제풀이
1. 교재 3장 연구과제 3번, 4번, 5번(단, R을 이용할 것)
==========================================================================
3-1번 히스토그램 작성
> rates.dat = read.table("c:/data/graduation.txt", header = TRUE)
# 데이터 입력
> rates.mat = as.matrix(rates.dat)
> par(mfrow = c(1,1))
# 그림이 그려질 공간 확보
> hist(rates.mat[,2], main= "통계학과 졸업전공시험 점수별 학생수 ", xlab="점수",ylab="학생수",xlim=c(80,200),ylim=c(0,12))
- wndfir -
참고 자료
없음