1. 강화학습 구성요소
- 최초 등록일
- 2019.10.20
- 최종 저작일
- 2019.10
- 2페이지/
한컴오피스
- 가격 1,000원
![할인쿠폰받기](/images/v4/document/ico_det_coupon.gif)
* 본 문서(hwp)가 작성된 한글 프로그램 버전보다 낮은 한글 프로그램에서 열람할 경우 문서가 올바르게 표시되지 않을 수 있습니다.
이 경우에는 최신패치가 되어 있는 2010 이상 버전이나 한글뷰어에서 확인해 주시기 바랍니다.
목차
I. 강화학습 구성요소
II. 참고문헌
본문내용
I. 강화학습 구성요소
1. 상태(State)
- 현재 상황을 나타내는 정보
- 에이전트가 관찰할 수 있는 상태의 집합(시간에 따라 변함)
- 예) 에이전트가 탁구를 치려면 탁구공의 위치, 속도, 가속도와 같은 정보가 필요
2. Episode
- 에피소드 : 처음 상태부터 마지막 상태까지를 나열한 것
- 예) S(0), S(1), S(2), ..., S(t-1), S(t)
3. 행동(Action)
- 에이전트가 할 수 있는 활동의 집합
- 행동 a에 대해 모두 상태 s’로 가는 것은 아니다.
- 상태 변환확률에 따라 다음 상태가 결정된다.
- 행동에는 연속, 이산형 행동이 존재한다.
- 예) 시간 t에 취한 활동 : A(t)=a
참고 자료
이원웅(2018), 가깝고도 먼 DeepRL