Wisconsin Prognostic Breast Cancer Database 유방암 재발 여분 판단 자료
- 최초 등록일
- 2008.07.10
- 최종 저작일
- 2008.06
- 30페이지/ 한컴오피스
- 가격 1,500원
소개글
Wisconsin Prognostic Breast Cancer Database을 통하여 유방암이 재발할지 여부에 대해서 data mining 의 SEMMA기법을 이용하여 분석
목차
1. Data information
2. Explore/Modify
1) Outcome (terget변수)와 각각의 변수들의 분포
2) Outcome (terget변수)와 각각의 변수간의
모자이크 도표와 막대그래프
3) Missing Value 분석 및 처리
4) 다차원에 대한 고려
3. Modeling
1) Tree 모형 적합
2) Tree 모형에 인한 변수 변환
3) Regression 모형 적합
4)Neural Network 모형 적합
4. ASSESSMENT
오분류 확률과 Lift Chart 와 ROC Chart 를 통한 평가
5. 결 론
본문내용
1. Data information
1) Wisconsin Prognostic Breast Cancer (WPBC)
2) 총 자료의 수: 198개
3) 변수 정보:
(1) 변수 1 은 Id number 이다.
(2) 변수 2 는 target 변수이다. (분포 - Recurrent: 151, Nonrecurrent: 47)
(3) 변수 3 은 time 이다.
(재발하는 때 까지 걸린 시간, 혹은 재발하지 않았다면 치료 후 검사시점까지의 시간)
(4) 변수 4 - 10 은 각각의 세포 핵 특징의 10개 실수값이다.
① Radius (Mean of distance from center to points on the perimeter)
② Texture (Standard deviation of gray-scale values)
③ perimeter
④ area
⑤ Smoothness (Local variation in radius lengths)
⑥ compactness (perimeter^2 / area - 1.0)
⑦ concavity (severity of concave portions of the contour)
⑧ concave points (number of concave portions of the contour)
⑨ Symmetry
⑩ Fractal dimension ("coastline approximation" - 1)
The mean, standard error, and "worst" or largest (mean of the three largest values) of these features were computed for each image, resulting in 30 features. For instance, field 4 is
Mean Radius, field, 14 is Radius SE, field 24 is Worst Radius.
4) Missing attribute values: 4
5) Data가 대량일 경우 적합한 Data Sampling은 실시하지 않았다.
참고 자료
없음