[비정형데이터분석] 1. 개인정보, 가명정보, 익명정보의 개념을 기술하고 각 개념에 대해 구체적인 (교재 외의) 사례를 들어 비교하고 설명하시오. (9점). R의 'rvest' 및 'dplyr' 패키지를 이용하여 관심 있는 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. (6점)
- 최초 등록일
- 2023.09.16
- 최종 저작일
- 2022.09
- 6페이지/
한컴오피스
- 가격 5,000원
![할인쿠폰받기](/images/v4/document/ico_det_coupon.gif)
과제정보
학과 |
통계·데이터과학과 |
학년 |
4학년 |
과목명 |
비정형데이터분석 |
자료 |
3건
|
공통 |
1. 개인정보, 가명정보, 익명정보의 개념을 기술하고 각 개념에 대해 구체적인 (교재 외의) 사례를 들어 비교하고 설명하시오. (9점)
2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 ... 더보기
1. 개인정보, 가명정보, 익명정보의 개념을 기술하고 각 개념에 대해 구체적인 (교재 외의) 사례를 들어 비교하고 설명하시오. (9점)
2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 비정형데이터 분석 상 유의점에 대해 논하시오. (6점)
3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이터가 맵리듀스 과정의 input 데이터라면 이후의 맵리듀스 과정은 어떻게 진행될 것인지 단계별로 도시하고 설명하시오. (단, Splitting 단계에서는 문장구조에 상관없이 첫 단어부터 시작하여 세 단어씩 나누어진다고 가정) (9점)
<보기>
This is a
simple example of
text mining algorithm
This example is
easy The next
example is more
difficult than this
4. R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 관심 있는 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. (6점) 접기
|
소개글
비정형데이터분석 A+받은 레포트입니다. 직접 작성하였습니다.
목차
1. 개인정보, 가명정보, 익명정보의 개념을 기술하고 각 개념에 대해 구체적인 (교재 외의) 사례를 들어 비교하고 설명하시오. (9점)
1) 개인정보
2) 가명정보
3) 익명정보
4) 교재 외 예시
2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 비정형데이터 분석 상 유의점에 대해 논하시오. (6점)
1) 비정형데이터 분석의 중요성
2) 비정형데이터 분석 상 유의점
3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이터가 맵리듀스 과정의 input 데이터라면 이후의 맵리듀스 과정은 어떻게 진행될 것인지 단계별로 도시하고 설명하시오. (단, Splitting 단계에서는 문장구조에 상관없이 첫 단어부터 시작하여 세 단어씩 나누어진다고 가정) (9점)
4. R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 관심 있는 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. (6점)
본문내용
1) 개인정보
개인정보는 주민등록번호, 생체정보, 이름 등이나 신체 특징 등이 포함되어 바로 누구의 정보인지 식별가능한 상태의 것을 말한다. 개인정보보호법은 “개인정보란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다)를 말한다.”고 규정하고 있다. 위의 정의에서 괄호 부분이 주로 문제가 되는데, 이는 ‘직접적으로’ 식별할 수 없더라도 다른 정보와 결합하면 ‘간접적으로’ 식별할 수 있는 정보 또한 개인정보에 포함된다는 취지로 이해된다. 다만 얼마나 ‘다른 정보와 쉽게 결합’이 가능해야 식별가능성이 인정되는지에 대해 구체적인 지침은 주지 못하고 있다. 특히 무슨 기준으로 결합 가능성을 판단할 것인지가 쟁점이 되고 있다.
2) 가명정보
가명정보는 말 그대로 가명의 형태이다. 이름을 ‘홍길동’이라고 사거나 ‘4번’이라고 한 것 등이다. 비식별정보처럼 다른 정보와 결합하면 다시 식별가능한 형태가 될 수 있는 것이 특징이다. 가명정보는 추가 정보를 통해 개인식별이 가능하기 때문에 개인정보로 구분할 수 있다. 즉 식별자가 제거 또는 변환되어 개인을 곧바로 식별할 수는 없지만 여전히 어느 개인의 정보라는 고유성은 남아있어 개인과의 대응관계를 복원할 수 있는 정보이다. 가명정보 또한 개인정보로 취급되기는 하지만 이에 대해서는 공익을 위한 기록의 보존, 과학적 연구 또는 통계에서의 활용이 허용된다.
일본은 가명정보가 이를 제공받는 사람의 입장에서 복원이 불가능한 경우 ‘익명가공정보’라 칭하며 이에 대해 재식별 방지 조치, 공표의무를 이행하면 자유롭게 활용이 가능하다. 미국 프라이버시 규칙 또한 특정 식별자를 제거하거나 전문가의 결정을 통해 의료정보를 환자의 동의 없이 활용할 근거를 마련하고 있다.
참고 자료
전승재, & 권헌영. (2018). 개인정보, 가명정보, 익명정보에 관한 4 개국 법제 비교분석. 정보법학, 22(3), 183-218.
박대현, & 송동현. (2014). 비정형 데이터 활성화의 정치, 경제, 문화적 함의. Internet & Security FOCUS. KISA.(Park DH, Song DH. 2014. Political. Economic and Cultural Devices of Ideal Data Activation. Internet & Security FOCUS. KISA.).