2.1 문제해결전략과 동적계획법 : 강화학습의 수학적 기초와 알고리즘의 이해

강화학습의 수학적 기초와 알고리즘의 이해 강의를 듣고, 정리한 글 임을 밝힙니다.

$p_1, p_2, p_3, \dots$ 라는 참 또는 거짓인 명제가 있다고 하자

$$ V(i,j) = min \begin{cases} C_{ij} + V(i,j +1) \\ C_{ij} + V(i + 1, j) \end{cases} $$

매 순간 최선의 선택

→ 다단계(multistage) 혹은 순차적(sequential)의사결정 프로세스

최적 부분 구조 (optimal substructure)
- 최적화의 원리 (principle of optimality)
  - 한 문제에 대한 해가 최적이라면, 그 문제를 이루는 모든 부분문제들에 해당하는 부분해가 부분문제의 최적해 이다.
  - 어떤 문제의 최적해가 그 문제를 분할한 부분문제에 대한 최적해를 항상 포함한다.

< 분할 정복과 동적 계획법의 차이 >

강화학습의 개념 (0)	2023.05.09
4.3 마르코브 보상 프로세스 : 강화학습의 수학적 기초와 알고리즘의 이해 (0)	2022.11.07
4.1 마르코브 프로세스 개요 : 강화학습의 수학적 기초와 알고리즘의 이해 (2)	2022.11.02
2.2 동적계획법, 중첩되는 부분문제와 역진귀납법 : 강화학습의 수학적기초와 알고리즘의 이해 (0)	2022.11.01
1. 강화학습의 이해 : 강화학습의 수학적 기초와 알고리즘의 이해 (1)	2022.10.31

[ BEing BETTER ]