[데이터마이닝]통계와 데이터마이닝 기법 비교 분석
- 최초 등록일
- 2005.12.21
- 최종 저작일
- 1997.01
- 9페이지/ 어도비 PDF
- 가격 3,000원
소개글
현대는 데이터와 정보의 홍수 시대라고 말해도 과언이 아닐 정도로 하루에 생성되는 정보와 데이터를 감시하는 것조차 불가능해졌고 데이터가 증가할수록 정보는 감소한다는 새로운 역설에 부딪치고 있다. 통계기법이나 간단한 질의만으로도 충분했던 과거와는 달리 이제는 데이터 검색은 불가능한 일이 되어버렸고 유용한 정보를 찾아내는 것은 상당한 시간적 기술적 노력이 필요하다. 현재 대용량의 시스템 안에 수록된 방대한 과거 데이터로부터 뭔가 의미 있는 결과를 끌어내어 좀 더 전략적인 차원에서 데이터를 이용하려는 움직임이 나타나기 시작하였다. 이러한 움직임에 부응해서 등장한 것이 바로 데이터마이닝(Data Mining)이다. 이것은 말 그대로 금광에서 금을 캐듯이 각 조직의 데이터 광산에서 그 동안 알려지지 않은 새롭고 의미 있는 정보를 추출하고자 하는 개념이다.
데이터마이닝은 통계, 컴퓨터 과학, 인공지능, 신경망과 같은 분야에 그 기술적인 기반을 두고 있다. 각 기술의 조합과 선택은 데이터마이닝 문제의 본질에 따라서 달라 질 수 있다. 또한 데이터마이닝의 기법에는 일반적으로 통계학에서 언급되는 여러 분석기법들도 포함하고 있다.
본 보고서에서는 전통적인 통계기법과 데이터마이닝에 대해 비교 분석하려한다. 이를 위해 통계의 군집분석, 로지스틱 회귀분석(Logistic Regression), 다중선형회귀분석과 데이터마이닝의 기억기반추론(Memory‐based Reasoning), k‐평균(k‐means), 자가구성지도(Self‐Organization Map)라고 불리는 코호넨망(Kohonen Network), 인공신경망(Artificial Neural Network), 의사결정나무(Decision Tree)등의 기법을 사용하였다. 사용한 데이터로는 군집화를 위한 자동차 데이터, 생존 예측을 위한 환자 데이터, 자동차 가격 예측을 위한 데이터 등이다.
2장에서는 데이터마이닝에 대해 개괄적으로 살펴보고 3장에서 통계와 관련하여 데이터마이닝 기법에 대해 설명한다. 4장에서는 통계와 데이터마이닝 기법을 적용하고 그 결과를 제시하여 두 기법을 비교 분석한다.
두 기법의 비교 분석을 위해 사용한 도구로 통계에는 SPSS 8.0, 데이터마이닝에는 SPSS Clementine 5.1을 사용하였다. 분석을 위해 Windows 2000 pro, 메모리 192M, Intel Pentium 366㎒ CPU를 사용하였다.
목차
1 서 론
2 데이터마이닝
2.1 정 의
2.2 수행작업
3 데이터마이닝 기법과 통계
3.1 기억기반추론
3.2 자동군집검출
3.3 의사결정나무
3.4 인공신경망
4. 통계와 데이터마이닝을 이용한 분석
4.1 자동차 군집분석
4.2 환자 생존 분석
4.3 자동차 가격 예측
5. 결 론
참고문헌
본문내용
현대는 데이터와 정보의 홍수 시대라고 말해도 과언이 아닐 정도로 하루에 생성되는 정보와 데이터를 감시하는 것조차 불가능해졌고 데이터가 증가할수록 정보는 감소한다는 새로운 역설에 부딪치고 있다. 통계기법이나 간단한 질의만으로도 충분했던 과거와는 달리 이제는 데이터 검색은 불가능한 일이 되어버렸고 유용한 정보를 찾아내는 것은 상당한 시간적 기술적 노력이 필요하다. 현재 대용량의 시스템 안에 수록된 방대한 과거 데이터로부터 뭔가 의미 있는 결과를 끌어내어 좀 더 전략적인 차원에서 데이터를 이용하려는 움직임이 나타나기 시작하였다. 이러한 움직임에 부응해서 등장한 것이 바로 데이터마이닝(Data Mining)이다. 이것은 말 그대로 금광에서 금을 캐듯이 각 조직의 데이터 광산에서 그 동안 알려지지 않은 새롭고 의미 있는 정보를 추출하고자 하는 개념이다.
데이터마이닝은 통계, 컴퓨터 과학, 인공지능, 신경망과 같은 분야에 그 기술적인 기반을 두고 있다. 각 기술의 조합과 선택은 데이터마이닝 문제의 본질에 따라서 달라 질 수 있다. 또한 데이터마이닝의 기법에는 일반적으로 통계학에서 언급되는 여러 분석기법들도 포함하고 있다.
본 보고서에서는 전통적인 통계기법과 데이터마이닝에 대해 비교 분석하려한다. 이를 위해 통계의 군집분석, 로지스틱 회귀분석(Logistic Regression), 다중선형회귀분석과 데이터마이닝의 기억기반추론(Memory‐based Reasoning), k‐평균(k‐means), 자가구성지도(Self‐Organization Map)라고 불리는 코호넨망(Kohonen Network), 인공신경망(Artificial Neural Network), 의사결정나무(Decision Tree)등의 기법을 사용하였다. 사용한 데이터로는 군집화를 위한 자동차 데이터, 생존 예측을 위한 환자 데이터, 자동차 가격 예측을 위한 데이터 등이다.
2장에서는 데이터마이닝에 대해 개괄적으로 살펴보고 3장에서 통계와 관련하여 데이터마이닝 기법에 대해 설명한다. 4장에서는 통계와 데이터마이닝 기법을 적용하고 그 결과를 제시하여 두 기법을 비교 분석한다.
두 기법의 비교 분석을 위해 사용한 도구로 통계에는 SPSS 8.0, 데이터마이닝에는 SPSS Clementine 5.1을 사용하였다. 분석을 위해 Windows 2000 pro, 메모리 192M, Intel Pentium 366㎒ CPU를 사용하였다.
참고 자료
없음