[국어정보학] 북한의 정보화와 말뭉치(코퍼스)
- 최초 등록일
- 2016.12.20
- 최종 저작일
- 2016.08
- 9페이지/
한컴오피스
- 가격 1,000원
![할인쿠폰받기](/images/v4/document/ico_det_coupon.gif)
소개글
국어정보학을 수강하는 학생들을 위해 혹은 국어정보학에 관심이 있는 분들을 위해 정리한 노트입니다.
목차
없음
본문내용
-북한의 문자 코드
↳ 북한의 문자 코드 표준은 KPS 9566(국규9566)이라 불린다.
<중 략>
Ⅱ. 말뭉치 (*말뭉치는 인간이 존속하는 이상 열린집합 상태이다.)
말뭉치 언어학은 ‘실제의 생생한 언어 사용에 기반을 둔 언어 연구’라고 할 수 있다. 언어의 한 층위라기 보다는 언어 연구의 한 방법론이라 할 수 있다.
-말뭉치 언어학이 관심을 두고 있는 문제.
① 기계 가독형 형태로 저장된 텍스트로부터 발견되는 각종의 현상들을 어떻게 잘 활용할 수 있을까?
② 어떠한 언어 이론이 말뭉치에 기반을 둔 연구에 가장 많은 도움을 줄 수 있을까?
③ 그 속에서 우리는 어떠한 언어 현상을 찾아내야 하는가?
④ 이러한 연구로부터 나온 증명된 언어 기술과 언어 용법은 어디에 적용하여 활용할 수 있을까?
컴퓨터의 보급으로 효율적인 정보처리가 이루어지고 있다. 놀라운 자료 처리 속도, 방대한 양의 일괄적 처리 및 자료 분류와 통계, 복제에 있어서도 용이해졌다.
말뭉치(corpus)는 언어 정보화의 가장 기초적인 자료이다. 정보화의 기본적 단계는 바로 대용량의 말뭉치를 구축하는 일이다. 일정한 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체라고 정의할 수 있다.
말뭉치는 언어학 분야에 있어 많은 기여를 할 수 있는데, 말뭉치 활용을 통해 다음과 같은 효과를 얻을 수 있다.
① 실증적인 증거를 제시해 준다.
② 사람의 직관이나 내성으로 볼 수 없는 언어의 조직적 성질을 볼 수 있게 한다.
③ 중간 문법을 연구하는 자료로서 중요한 의미를 가진다.
④ 언어의 기능적인 측면을 밝히는데 효과적이다. 의미와 화용 기능을 밝히는데 유용.
-말뭉치의 요건
1) 정확성 : 오류나 오타, 누락이 있을 경우 적절한 정보 수집에 불편을 겪는다. 나아가 특정 연구의 방향성을 혼란스럽게 할 수도 있다.
2) 균형성 : 다수가 지니는 대표성 못지않게 소수도 배려해야 하는 균형성이 필요한 것이다. (* 국어사 연구를 위한 말뭉치의 경우 이미 닫힌 집합이다. 물론, 서적이 발견될 가능성이 있지만, 한정적인 자료 때문에 국어사의 경우 그 균형성을 확보하기란 쉽지 않다.
참고 자료
없음