반응형
강화학습의 목적은 에이전트가 많은 보상을 받기 위한 최적의 정책을 학습하는 것이다.
에이전트가 최적의 정책을 찾기 위해서는 여러 상황에서 다양한 행동을 하며 많은 경험을 해보는 것이 필수이다.
1️⃣ 탐험(exploration)
에이전트가 항상 현재 알려진 최선의 행동만을 선택하면, 더 좋은 결과를 줄 수 있는 다른 행동을 발견하지 못한다. 에이전트는 다양한 경험을 통한 학습을 거쳐 가장 최적의 정책을 학습할 수 있게 된다.
이렇게 에이전트가 다양한 경험을 할 수 있도록 에이전트의 행동을 결정하는 기법을 탐험이라고 한다.
2️⃣ 이용(exploitation)
하지만 에이전트가 너무 다양한 경험만을 추구하는 것은 좋지 않다. 엄청나게 다양한 상태와 행동이 존재하는 환경에서 에이전트가 모든 경험을 다 해보려면 많은 시간이 필요할 것이다. 이에 따라 어느 정도는 에이전트가 학습된 대로 행동하는 것도 필요하다.
이렇게 학습된 결과에 따라 에이전트의 행동을 결정하는 기법을 이용이라고 한다.
3️⃣ 탐험&이용 방법
▶️ 무작위 탐색 방법
같은 확률로 에이전트가 취할 수 있는 행동 중 하나를 임의로 선택(random action)하는 단순한 기법으로 에이전트가 다양한 경험을 할 수 있도록 한다.
▶️ ε-greedy
- 최적의 정책을 찾기 위해 탐험과 이용이 적절한 밸런스를 잘 맞춰서 수행하는 기법이다.
- 학습 초기에는 탐색을 수행할 확률을 높게 설정하고, 학습이 진행될수록 이용을 수행하는 확률을 늘려가는 방식이다.
- 각 기법을 선택할 확률을 결정하는 값이 ε(엡실론) 값이다.
- ε은 무작위 행동(random action)을 취할 확률을 의미한다.
- 1-ε는 가장 높은 큐 함숫값을 가지는 행동을 취하도록 하는 탐욕적인(greedy) 행동을 수행할 확률을 의미한다.
▶️ ε-greedy 사용 방법
- 학습 초반에는 ε의 값을 1로 설정한다.
- 따라서 에이전트는 100% 무작위 탐색을 수행한다.
- 학습이 진행됨에 따라 조금씩 ε의 값을 줄여나간다.
- 이에 따라 무작위 탐색을 수행할 확률은 조금씩 줄어들고, 탐욕적 행동을 수행할 확률이 조금씩 늘어난다.
- 학습의 마지막 단계가 되면 ε의 값을 점점 줄여나가다가 일정 값(일반적으로 0.1)으로 고정해 학습을 수행한다.
- 마지막으로 학습을 마무리하고 성능을 테스트할 때는 ε의 값을 0으로 하여 완전히 학습된 대로 에이전트가 행동을 하도록 설정한다.
반응형
'강화학습' 카테고리의 다른 글
[강화학습] 자동 주차 시뮬레이션 구현을 위한 Unity 환경 설정 (0) | 2024.04.10 |
---|---|
[강화학습] 강화학습의 기초 용어 (0) | 2024.03.31 |