'인공지능/강화학습' 카테고리의 글 목록

인공지능/강화학습

이 포스트는 '파이썬과 케라스로 배우는 강화학습'이라는 책을 바탕으로 스스로 공부한 내용을 정리한 포스트입니다. 근사함수와 인공신경망 개념에 대해서 다룬다. ※ 몬테카를로, 살사, 큐러닝 개념은 사정상 생략함 근사함수 몬테카를로, 살사, 큐러닝의 한계 이 3가지 개념을 배울 땐, 상태 공간의 크기가 작고 환경이 불변한다는 가정을 가진 간단한 문제들이었다. 그러나 현실의 문제는 이렇게 단순하지 않다. 그래서 요즘 강화학습은 인공신경망을 사용하려는 추세이다. 앞서 다이나믹 프로그래밍의 한계는 다음 3가지였다. 1. 계산 복잡도가 매우 커짐 2. 차원의 저주 3. 환경에 대한 완벽한 정보가 필수 몬테카를로, 살사, 큐러닝 방식은 3번을 해결했지만(model-free), 1번과 2번 문제는 여전히 해결을 못 했..

인공지능/강화학습 2023. 9. 23. 14:37

[강화학습] 3. 다이나믹 프로그래밍

이 포스트는 '파이썬과 케라스로 배우는 강화학습'이라는 책을 바탕으로 스스로 공부한 내용을 정리한 포스트입니다. 다이나믹 프로그래밍, 정책 이터레이션과 가치 이터레이션에 관하여 공부한다. 다이나믹 프로그래밍 다이나믹 프로그래밍이란 큰 문제 안에 동일한 작은 문제가 여러개 있을 때, 하나의 문제를 풀고 나머지 동일한 문제는 정답만 이용하는 프로그래밍을 말한다. 다이나믹 프로그래밍으로 벨만 기대 방정식을 푸는 것이 정책 이터레이션, 벨만 최적 방정식을 푸는 것이 가치 이터레이션이다. 순차적 결정 문제 해결 과정 1. MDP로 엄밀하게 정의 2. 벨만 기대 방정식과 벨만 최적 방정식을 계산 3. 2번을 통해 최적 가치함수와 최적 정책을 찾기. 벨만 방정식을 푼다는 것 벨만 방정식을 푼다는 것은 식을 만족하는 ..

인공지능/강화학습 2023. 9. 22. 16:15

[강화학습] 2. MDP와 벨만 방정식

이 포스트는 '파이썬과 케라스로 배우는 강화학습'이라는 책을 바탕으로 스스로 공부한 내용을 정리한 포스트입니다. MDP와 벨만 방정식에 대해 공부한다. 여기를 제대로 이해해야 다음 내용들을 쉽게 이해할 수 있다. 이 부분은 특히 충분한 시간을 가지고 공부하자. MDP MDP는 강화학습을 위한 문제(Problem)를 표현하기 위한 구성요소이다. -> 순차적 행동 결정 문제를 수학적으로 엄밀하게 정의한 것이다. MDP는 다음과 같은 요소로 이루어져 있다. 1. 상태 2. 행동 3. 보상 함수 4. 상태 변환 확률 5. 할인율 (중요!) MDP를 정해주고 설계하는 존재는 사람이다. 사람과는 달리 에이전트는 스스로 문제를 정의할 수 없기 때문이다. 즉 하이퍼파라미터인 셈이다. 상태 S는 특정 요소에 대하여 가질..

인공지능/강화학습 2023. 9. 20. 18:54

[강화학습] 1. 강화학습 개요

이 포스트는 '파이썬과 케라스로 배우는 강화학습'이라는 책을 바탕으로 스스로 공부한 내용을 정리한 포스트입니다. 강화학습이란 무엇인지, 어떤 종류가 있고, 강화학습이 적용된 예시를 살펴본다. 행동심리학과 머신러닝을 기반으로 하는 강화학습에 대해 공부하려면 강화학습이 해결하고자 하는 문제에 대해 정의를 먼저 해야 한다. 강화학습은 순차적으로 행동을 결정해야 하는 문제를 다룬다. 이러한 문제를 컴퓨터가 풀기 위해서는 수학적으로 정확히 정의해야 한다. Why?) 왜 수학적 엄밀함이 요구되는가? 문제를 컴퓨터에게 정확하게 명령을 내리기 위해서이다. 여기에서는 강화학습의 개념과 강화학습 문제의 정의를 살펴본다. 강화학습의 개념 강화(reinforcement)란 동물이 시행착오를 통해 학습하는 방법 중 하나이다. ..

인공지능/강화학습 2023. 9. 20. 12:19

Na의 공부 블로그

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

인공지능/강화학습

추가 정보

인기글

최신글

페이징

티스토리툴바