ChemAI

Saturday, March 5, 2022

2021년 8월 한국화학연구원에서 발표한 ChemAI와 관련된 자료들을 읽고 내용을 공유합니다.

Summary

  • 화학, 소재 분야에서도 최근 머신 러닝을 이용한 연구들이 많이 진행되고 있습니다. 분자가 어떤 특성을 가질지, 원하는 성질을 갖는 분자 구조를 어떻게 디자인 할 것인지, 어떻게 합성 과정을 최적화할지 등 여러 방면으로 머신 러닝을 활용할 수 있습니다. 벌써 네이처 퍼블리싱 그룹의 10% 정도가 머신 러닝과 관련된 연구라고 합니다.

  • 하지만 화학 분야에서 이를 적용하기에는 어려움 또한 따릅니다. 연구 환경을 세팅하는 것이 복잡하게 느껴질 수 있으며 SMILES 등 구조적인 관계를 나타내는 데이터를 수치적으로 바꿔야 해서 데이터 전처리가 쉽지만은 않습니다. 또한 화학 분야 전문가들이 생소한 머신러닝 알고리즘에 대해 공부하고 하이퍼 파라미터 최적화와 evaluation까지 진행하려면 많은 시간과 노력이 필요할 것입니다.

  • 한국화학연구원은 이를 해결하기 위해 ChemAI를 만들었습니다. ChemAI는 웹 베이스이기 때문에 누구나 쉽게 접근이 가능합니다. 자동으로 데이터를 수치 데이터로 변환하고 적합한 알고리즘을 선택해 줍니다(연구 목적이나 물질에 따라 알고리즘을 선택하는 것은 매우 중요합니다. 머신 러닝이 아닌 기존 DFT(density functional theory) 시뮬레이션에서도 물질이 crystal인지, 금속인지, 반도체인지, 단백질인지 등에 따라 다른 프로그램과 방법을 사용합니다). 이후 자동으로 hyperparameter 최적화와 evaluation, visualization까지 진행해 줍니다.

  • 알고리즘은 crystal GNN(소재 분야 SOTA), symbolic regression, 화학연구원에서 자체 개발한 DopNet 등 총 16가지가 제공됩니다. SMILES 구조의 성질을 예측하는 데는 GNN을 사용했고 crystal structure의 경우 mendeleev, pytorch geometric 등을 이용했다고 합니다.

Comments

  • 머신 러닝은 여러 분야에서 문제를 더 쉽고 빠르게 해결할 수 있는 방법이 될 수 있습니다. 하지만 이를 활용하는 것이 쉽지는 않기 때문에 문제 해결의 선택지에서 고려되지 않는 경우도 많습니다.
  • 따라서 ChemAI와 같이 누구든지 쉽게 이용 가능하도록 만든 머신 러닝 툴의 역할과 의미가 매우 크다고 생각합니다. 이는 화학 분야에 종사하는 사람들의 시간과 노력을 아껴주고 새로운 발견을 해 낼 가능성을 높여줄 것입니다.
  • 화학공학과 컴퓨터 공학을 전공하다가 처음 머신 러닝에 관심을 가지게 된 이유도 이러한 맥락이었습니다. 지금은 여러 이유로 조금은 다른 길을 가고 있기는 하지만 언젠가 이런 프로그램을 만들어 보고 싶네요.
  • DopNet에 대해서도 다루려고 했는데 글이 길어져서 다음 주에 다룰 예정입니다. 관심이 있으시면 “Predicting thermoelectric properties from chemical formula with explicitly identifying dopant effects” 를 읽어 보시길 바랍니다.

References

https://www.youtube.com/watch?v=Q7vL1rSG-pk

POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

Magnetic control of tokamak plasmas