🌟 한 줄 소감 시작이 좋다! 나만의 목표를 정해두다 보니까 의지가 생긴다. 계획한 것과 달리 달성하지 못한 목표들이 있지만, 그래도 달성한 것들이 더 많아 기쁘다. ☘️ 하루 일과 정리 순공 총 6시간 정도를 사용했다. 물론 공부하면서 예상치 못한 딜레이가 발생하기도 하고 계획대로 진행을 하지 못한 것도 있다. 백엔드 개발자 취준생으로써 잘하고 있는지 고민이 많았는데, 어쩌다 좋은 기회로 백엔드 현직자 분과의 자기소개서&포트폴리오 첨삭 시간을 가지게 됐다. 처음엔 카카오톡으로 간단히 피드백만 주실 줄 알았는데, 디스코드를 통해 한땀, 한땀 읽어주시면서 자기소개서를 피드백 해주셔서 감사했다. 어떻게 나아가야할지 막막했는데 이 시간을 통해 백엔드 개발자로서 어떻게 성장해야 할지, 현재 나에게 부족한 것은 ..
본문을 작성하기에 앞서 블로그에 글을 작성하는 것에 30분 이상 투자를 안 하려고 한다. 30분이 넘으면 바로 글 작성하는 것을 끊을 거다... 생각나는 대로, 맞춤법을 신경쓰지 않고, 두서 없이 작성하는 글이라 이상한(?) 글일 수도 있다. 일단 제목과 같이 열심히 살아보고자 한다. 요즘 번아웃과 게으름의 사이인 상태에 놓인 거 같다. 번아웃인 건지, 게으름인 건지, 번아웃이라고 세뇌하면서 아무것도 하기 싫은 건지... 이상한 상태에 있다. 가장 큰 문제는 삶에 큰 목표가 없다. 단지 그냥 살아가기 위해서 직업을 가져야 하고, 그러기 위해 취업 준비를 하고, 그리기 위해 공부를 하고 있다. 큰 취미도 없다. 생각을 놓고 게임하는 것이 취미다. 다른 사람들처럼 악기를 배우거나, 운동을 하거나 등의 생산적..
강화학습의 목적은 에이전트가 많은 보상을 받기 위한 최적의 정책을 학습하는 것이다. 에이전트가 최적의 정책을 찾기 위해서는 여러 상황에서 다양한 행동을 하며 많은 경험을 해보는 것이 필수이다. 1️⃣ 탐험(exploration) 에이전트가 항상 현재 알려진 최선의 행동만을 선택하면, 더 좋은 결과를 줄 수 있는 다른 행동을 발견하지 못한다. 에이전트는 다양한 경험을 통한 학습을 거쳐 가장 최적의 정책을 학습할 수 있게 된다. 이렇게 에이전트가 다양한 경험을 할 수 있도록 에이전트의 행동을 결정하는 기법을 탐험이라고 한다. 2️⃣ 이용(exploitation) 하지만 에이전트가 너무 다양한 경험만을 추구하는 것은 좋지 않다. 엄청나게 다양한 상태와 행동이 존재하는 환경에서 에이전트가 모든 경험을 다 해보려..
이번 졸업 프로젝트에서 강화학습과 관련된 프로젝트를 진행하게 됐다. 그 과정에서 강화학습에 공부한 내용을 기록하고자 한다. 다음은 파이토치와 유니티 ML-Agents로 배우는 강화학습이라는 책을 읽고 공부한 내용을 작성한 것이다. 강화학습이란? 강화학습은 지도 학습처럼 정답이 있지도 않고, 비지도 학습처럼 데이터의 특징만을 기반으로 학습하지도 않는다. 강화학습은 에이전트가 환경과 상호작용하고, 이 환경에는 보상이라는 기준이 있어서 다양한 시행착오를 겪어가며 보상을 최대화하는 방향으로 학습한다. 이에 따라 강화학습은 다양한 시행착오를 통해 학습할 수 있으며 비교적 명확한 보상을 설정할 수 있는 문제 해결에 사용한다. 예를 들어, 벽돌 깨기 같은 게임을 강화학습 알고리즘이 푼다면 게임 내에서 다양한 행동들을..