POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

Samsung SDS Techtonic의 “POMO: 강화학습을 이용한 조합 최적화(NeurIPS 2020)” 발표를 보고 느낀점을 공유합니다. 해당 자료는 reference로 걸어두었습니다.

조합최적화 문제를 강화학습으로 풀려는 시도들이 최근 많이 있음
강화학습을 처음 공부할 때는 강화학습이 풀 수 있는 실제 세상의 문제가 많이 있을지 의문이었는데, 실제 세상에서 적용할 수 있지만 아직 사람들이 가치를 발견하지 못한 경우가 많겠다는 생각이 들었음
조합 최적화를 들어보긴 했지만 실제로 어떤 내용인지는 영상을 통해 처음으로 접했음. 내용이 흥미로워서 기초부터 주요 논문까지 쭉 순서대로 제대로 공부해보고 싶다는 생각이 들었음