[70점 만점] 비정형 데이터 분석 기말 과제물

제로콜라맛있다

개인인증 판매자스토어

최초 등록일: 2021.08.27
최종 저작일: 2020.11; 12페이지/ 어도비 PDF; 가격 8,000원

다운로드

장바구니

상세정보
자료후기 (0)
자료문의 (0)
판매자정보

소개글

"[70점 만점] 비정형 데이터 분석 기말 과제물"에 대한 내용입니다.

1. 맵리듀스의 주요 내용을 약술하고, 이 방식이 중요 요소로 손꼽히게 된 이유를 빅데이터의 특징과 연관지어 설명하시오.

2. 프로그래밍 언어 중 인터프리터 방식 언어의 특징을 컴파일 방식과 비교하여 설명하시오.

3. UCI Machine Learning Repository 에서 텍스트 데이터 세트 하나를 다운로드 하고 그 특징을 요약하여 기술하시오.

4. 텍스트 데이터의 분석을 위한 기본 가설에 대해 설명하시오

5. R 을 이용하여 로빈슨 크루소 각 장별 텍스트 데이터를 분석하시오. 분석은 강의 및 교재를 참고하되 다음의 절차를 따르시오.
1) 자신의 학번 끝번호를 3 으로 나누고 나머지를 구하시오.
2) 나머지가 0 인 경우 제 2 장과 제 5 장, 1 인 경우 제 4 장과 제 6 장, 2 인 경우 제 5 장과 제 7 장을 선택하여 각각 불러들이시오.
3) 불러들인 두 챕터의 텍스트 데이터 전처리를 수행하시오.
4) 탐색적 자료분석을 통해 선택한 두 챕터를 비교하시오.
5) 단어빈도, 문서빈도, 장서빈도의 정의를 기술하시오.
6) 코사인 유사도의 정의를 기술하고 선택한 두 챕터의 코사인 유사도를 구하시오.

본문내용

[ 맵리듀스가 중요 요소로 손꼽히게 된 이유 ]
과거의 데이터 처리 및 저장 방식은 정형화된 데이터를 대상으로 저장하는 형태의 관계형 데이터베이스(RDBMS)에 기반을 두고 있었다. 하지만 스마트폰, 소셜네트워크의 전파, 다양한 센서의 발전 등으로 인해 생성되는 데이터의 양과 그 주기가 급격히 증가하였고 데이터의 형태도 비정형을 띄게 되었다. 따라서 기존의 데이터베이스 시스템으로는 빅데이터를 저장 및 관리와 분석을 감당할 수 없게 되었고, 이는 분산 시스템(distributed system)의 발전으로 이어졌다.
분산 시스템은 데이터를 복수의 컴퓨터에 나누어 처리 또는 연산을 수행하는 방식의 시스템을 의미한다. 분산 시스템은 한 대의 고성능 컴퓨터를 이용하는 대신 복수의 저렴한 컴퓨터를 연결해 작업하여 저비용으로 고성능의 효과를 꾀할 수 있다는 이점이 있다. 자원을 원하는 만큼 연결하여 규모를 매우 쉽게 확장시킬 수 있고, 연결된 컴퓨터들 중 한대에서 오류가 발생하거나 고장을 일으켜도 전체 시스템은 여전히 유지되므로 신뢰성을 확보 및 유지할 수 있다.
맵리듀스는 이렇게 복수의 서버 또는 컴퓨터에 분산 저장되어 있는 방대한 빅데이터를 분석할 수 있도록 프로세스를 간단하고 빠르게 최적화 방법이다. 일반적으로 데이터를 처리하기 위해서는 데이터를 한대의 컴퓨터에 가져오고 처리한 다음, 데이터를 다시 저장소에 저장하는 과정을 거치지만, 이러한 방식을 빅데이터에 적용한다면 데이터를 전송에 큰 비용과 부담이 들게 된다. 반대로 맵리듀스는 데이터를 처리하고자 하는 방식을 함수로 정의해 실제 데이터가 저장된 위치에서 바로 처리될 수 있게 한다.

[ 맵 리듀스 개념과 동작 방법 ]
맵리듀스의 핵심은 데이터를 <key - value>쌍으로 처리한다는 것이다. 대용량의 입력파일은 데이터를 분산저장하기 위해 분리(split)된 후, 처리하고자 하는 맵(Map)함수를 거쳐 <데이터(key) - 맵함수를 거쳐 나온 결과값(value)>으로 출력된다.

참고 자료

장영재, 손원, 황희진, [비정형 데이터 분석], 한국 방송통신대 출판 문화원, 2020.
이긍희, 함유근, 김용대, 이준환, 원중호, [빅데이터의 이해], 한국 방송통신대 출판 문화원, 2019.
박정혁, 이상열, 강다현, 원중호(2013), [하둡과 맵리듀스], 한국 데이터 정보과학 학회지 2013년 9월호, 1013-1027
“Interpreter vs Compiler: Difference between interpreter and compiler”, Programiz. 2020년 10월 1일 접속. https://www.programiz.com/article/difference-compiler-interpreter
“ ‘ISS 안착 머스크’의 첫 유인우주선, 어떤 SW 사용했다”, ZDNet Korea, 2020년 6월 6일 작성, 2020년 10월 1일 접속. https://zdnet.co.kr/view/?no=20200605174733
“Distributional approaches to word meanings” Chris Potts, Ling 236/Psych 236c: Representations of meaning, Spring 2013
“Distributional semantics”, Wikipedia, 2020년 10월 14일 접속. https://en.wikipedia.org/wiki/Distributional_semantics
“UCI Machine Learning Repository” University of California Irvine. 2020년 10월 27일 접속. https://archive.ics.uci.edu/ml/datasets/OpinRank+Review+Dataset
Dey L, Chakraborty S, Biswas A, Bose B, Tiwari S (2016) Sentiment analysis of review datasets using Naïve Bayes’ and K-NN classifier. Int J Inform Eng Electron Bus 8(4):54–62. doi:10.5815/ijieeb.2016.04.07
윤근수(2000), 한국어 특성을 이용한 인덱싱 기법 연구, 연구논문집 제27권 제1호 pp. 145-162 울산과학대학
“추천시스템”, 데이터사이언스스쿨, 2020년 11월 2일 접속. https://datascienceschool.net/03%20machine%20learning/07.01%20%EC%B6%94%EC%B2%9C%20%EC%8B%9C%EC%8A%A4%ED%85%9C.html?highlight=cosine
“코사인 유사도”, 딥러닝을 이용한 자연어처리 입문, 2020년 11월 2일 접속. https://wikidocs.net/24603
“Cosine Similarity - 코사인 유사도”, TOTAL DATA SCIENCE, 2014년 9월 19일, 2020년 11월 2일 접속. https://euriion.com/?p=548