• LF몰 이벤트
  • 파일시티 이벤트
  • 서울좀비 이벤트
  • 탑툰 이벤트
  • 닥터피엘 이벤트
  • 아이템베이 이벤트
  • 아이템매니아 이벤트

토큰화(자연어처리)

통도사
개인인증판매자스토어
최초 등록일
2022.05.07
최종 저작일
2022.05
6페이지/ 한컴오피스
가격 3,000원 할인쿠폰받기
다운로드
장바구니

* 본 문서(hwp)가 작성된 한글 프로그램 버전보다 낮은 한글 프로그램에서 열람할 경우 문서가 올바르게 표시되지 않을 수 있습니다. 이 경우에는 최신패치가 되어 있는 2010 이상 버전이나 한글뷰어에서 확인해 주시기 바랍니다.

소개글

"토큰화(자연어처리)"에 대한 내용입니다.

목차

I. 서론

II. 본론
1. 토큰화란?
2. 토크나이저란?
3. 단어단위 토큰화
4. 문자단위 토큰화
5. 서브워드 단위 토큰화
6. 바이트 페어 인코딩
7. 바이트페어 인코딩 어휘 집합 구축하기
8. BPE 토큰화
9. 워드피스

III. 결론

본문내용

I. 서론
자연어 처리는 AI분야의 메인 축중 하나로 다양하게 연구되고 있고 적용분야도 많다. AI분야의 메인 영역중 비전과 하나의 축을 담당하고 있는 분야가 자연어 처리분야인 것이다. 자연어 처리에 있어 초기단계에 진행해야 하는 분야는 긴 문장을 작은 단우로 쪼개어 기계학습을 할 수 있도록 하는 작업이다. 이를 토큰화라고 하며 본 보고서에서는 이에 대해 알아보도록 하겠다.

II. 본론
1. 토큰화란?
- 문장을 토큰 시퀀스로 나누는 과정을 말한다.
- 수행 대상에 따라 문자, 단어, 서브워드 등 3가지 방법이 있다.

2. 토크나이저란?
- 토큰화를 실행하는 프로그램을 말한다.
- 한국어 토크나이저에는 은전한닢(mecab), 꼬꼬마(kkma) 등이 있다.

3. 단어단위 토큰화
1) 방법
- 단어단위로 토큰화를 진행하는 작업을 말한다.

2) 공백 분리 방법
- 공백으로 분리할 수 있으나 이 경우 어휘집합의 크기가 매우 커질 수 있는 문제가 있다.

3) 토큰화 결과의 예상되는 문제점
- 보통 언어 하나로 모델을 구축하는 경우 어휘 집합 크기는 10만개를 넘는 경우가 많다.
- 언어 집합 크기가 커지면 모델 학습이 어려워진다.

4. 문자단위 토큰화
1) 방법
- 단어 대산 문자 단위로 구분하는 방법을 말하낟.
- 한글로 표현가능한 글자는 모두 1만 1,172개이므로 알파벳, 숫자, 기호 등을 고려해도 어휘 집합의 크기는 1만 5,000개를 넘기 어렵다.

2) 문제점
- 문자단위로 토큰화를 수행하면 각 문자 토큰은 의미있는 단위가 되기 어렵다.
예) ”어제“의 어와 ”갔었어“에서 어미 어의 구분이 사라진다.
- 단어 단위 토큰화의 결과와 비교해 볼 때 토큰 시퀀스의 길이가 상대적으로 길어지게 된다. 따라서 해당 문장을 학습하기가 어렵게 되고 해당 모델의 성능이 떨어진다.

5. 서브워드 단위 토큰화
1) 방법
- 단어와 문자 단위 토큰화의 중간에 있는 형태이다.

참고 자료

이기창(2021), Do it! BERT와 GPT로 배우는 자연어 처리, 이지스 퍼블리싱
통도사
판매자 유형Gold개인인증
해당 판매자는 노하우톡 기능을 사용하는 회원입니다.노하우톡
* 노하우톡 기능이란?노하우 자료를 판매하는 회원에게 노하우 컨설팅, 활용방법 등을 1:1 대화를 통해 문의할 수 있는 기능입니다.

주의사항

저작권 자료의 정보 및 내용의 진실성에 대하여 해피캠퍼스는 보증하지 않으며, 해당 정보 및 게시물 저작권과 기타 법적 책임은 자료 등록자에게 있습니다.
자료 및 게시물 내용의 불법적 이용, 무단 전재∙배포는 금지되어 있습니다.
저작권침해, 명예훼손 등 분쟁 요소 발견 시 고객센터의 저작권침해 신고센터를 이용해 주시기 바랍니다.
환불정책

해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.

파일오류 중복자료 저작권 없음 설명과 실제 내용 불일치
파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우 다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함) 인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우 자료의 설명과 실제 자료의 내용이 일치하지 않는 경우

이런 노하우도 있어요!더보기

찾던 자료가 아닌가요?아래 자료들 중 찾던 자료가 있는지 확인해보세요

  • GPT 매개변수 숫자가 갖는 의미 (GPT parameters) 6페이지
    이 단계에서 모델은 대규모의 텍스트 데이터를 사용하여 자연처리 작업에 ... 파인튜닝은 GPT를 특정한 자연처리 작업에 맞게 조정하는 과정으로, 작은 ... 트랜스포머는 여러 개의 인코더와 디코더 레이어로 구성되며, 이러한 레이어는 자연어의
  • AI Biz_기말_ai알고리즘 응용사례_알고리즘중심_cnn,lstm,bert,gen(A+만점) 10페이지
    하지만 지금까지 대부분의 연구는 자연처리 기술의 한계로 추출요약 방법 ... 특히 문서에 내제된 의미를 이해하고 요약하는 자연처리 분야에서 딥러닝 ... 처리와 관련된 많은 과제에 적용 가능한 자연어의 범용적인 수치 표현을 제공할
  • 파이썬 (python) 6페이지
    여기에는 기계 학습, 자연처리, 데이터 시각화 등을 위한 라이브러리가 ... 기계 학습, 자연처리 또는 컴퓨터 비전 작업 중 무엇을 하든 파이썬은 ... 신경망은 이미지 인식 및 분류, 자연처리, 예측 모델링을 비롯한 다양한
  • 생성형 AI 참석 보고서 0페이지
    주요기능으로는 자연처리 기술을 사용하여 사용자가 문의한 내용에 대한 답변 ... (입력 및 출력되는 단어 수, 1000토큰이 약 750단어에 해당)수 제한이 ... 가능하다.그 외 대부분의 AI가 무료로 이용가능한 대신 월별로 사용가능한 토큰
  • Chat GPT의 장단점 7페이지
    특히, Chat GPT 모델은 자연처리 기술을 활용하므로, 자연처리 ... 이를 통해, 예를 들어 자연처리와 이미지 처리를 결합한 다중 모달 모델을 ... Chat GPT의 장점2.1 다양한 자연처리 태스크에 적용 가능Chat
더보기
최근 본 자료더보기
탑툰 이벤트
토큰화(자연어처리)
AI 챗봇
2024년 08월 29일 목요일
AI 챗봇
안녕하세요. 해피캠퍼스 AI 챗봇입니다. 무엇이 궁금하신가요?
9:32 오후
문서 초안을 생성해주는 EasyAI
안녕하세요. 해피캠퍼스의 방대한 자료 중에서 선별하여 당신만의 초안을 만들어주는 EasyAI 입니다.
저는 아래와 같이 작업을 도와드립니다.
- 주제만 입력하면 목차부터 본문내용까지 자동 생성해 드립니다.
- 장문의 콘텐츠를 쉽고 빠르게 작성해 드립니다.
베타기간 중 사용 가능한 무료 코인 10개를 지급해 드립니다. 지금 바로 체험해 보세요.
이런 주제들을 입력해 보세요.
- 유아에게 적합한 문학작품의 기준과 특성
- 한국인의 가치관 중에서 정신적 가치관을 이루는 것들을 문화적 문법으로 정리하고, 현대한국사회에서 일어나는 사건과 사고를 비교하여 자신의 의견으로 기술하세요
- 작별인사 독후감
방송통신대학 관련 적절한 예)
- 국내의 사물인터넷 상용화 사례를 찾아보고, 앞으로 기업에 사물인터넷이 어떤 영향을 미칠지 기술하시오
5글자 이하 주제 부적절한 예)
- 정형외과, 아동학대