본문 바로가기
Technology

신약개발을 위한 AI 모델의 탄생

by HITS 2021. 9. 9.

 

안녕하세요. HITS에서 신약개발을 위한 인공지능(AI) 모델 개발을 맡고 있는 임재창입니다.

오늘은 골격기반 분자 그래프 생성모델(scaffold-based molecular generative model)에 대해서 설명해드리겠습니다.

 

scaffold 기반 분자 생성 모델 개발 동기

분자생성모델은 딥러닝 기술을 이용하여 원하는 분자를 디자인하는 기술입니다. 분자생성모델의 태동기에는 분자구조에 대한 사전 정보 없이 one-shot으로 한 번에 원하는 분자를 생성하기 위한 모델들이 주로 연구되었습니다. 이상적인 접근 방법이지만, 신약개발과 같이 매우 복잡한 과제에서 one-shot으로 분자를 디자인하는 것은 거의 불가능합니다. 대부분은 여러 번의 trial-error와 함께 점진적으로 분자구조를 변형해가며 원하는 물성을 만족하는 분자구조를 찾습니다. 신약개발에서는 분자 물성에 핵심적인 역할을 하는 scaffold를 고정하고 분자를 변형시키면서 분자를 디자인하는 경우가 많습니다. 최근에는 이러한 접근법을 반영하여 one-shot 분자 디자인보다 분자를 점진적으로 변화시켜가는 방식들이 주목받고 있습니다. 이를 위해서는 생성된 분자의 물성만을 조절하는 것이 아니라 생성된 분자의 물성과 분자 구조를 동시에 조절할 수 있는 분자생성모델이 필요합니다. 저희가 골격기반 분자 그래프 생성모델을 논문에서 발표할 당시 이러한 개념들이 일반적이지 않았습니다만, 저희 연구 이후로 이러한 개념들이 보편화되어 널리 사용되고 있고, 다양한 후속 모델들도 제시되고 있습니다.

그림1. 골격기반 분자 그래프 생성모델 개념도 (reference: Chem. Sci., 2020,11, 1153-1164)

핵심 작동 원리: 생성된 분자의 scaffold를 조절하기 위한 방법

물론 생성된 분자의 분자구조를 조절하기 위한 연구들은 이전에도 있었습니다. 기존 연구의 목적은 생성된 분자와 기준 분자의 '유사도'를 조절하는 것이었습니다. 하지만 유사한 분자를 만드는 것과 원하는 scaffold를 갖는 분자를 만드는 것은 다릅니다. 분자구조를 보다 직접적으로 조절해야 하므로 후자의 난이도가 더 높습니다. 기존에는 latent space 상에서 기준 분자와 생성될 분자의 거리를 조절하는 방식으로 유사도를 조절했지만, 생성된 분자의 scaffold를 고정할 수는 없다는 단점이 존재했습니다. 이 문제를 해결하고자 저희는 scaffold에 원자와 화학결합을 추가하여 분자를 디자인하는 방식을 고안하였습니다. scaffold에 원자를 추가하는 방식으로 분자를 디자인하기 때문에, 생성된 분자는 항상 처음에 주어진 scaffold를 하위구조로 포함하게 됩니다. 이 아이디어는 smiles 기반의 분자 생성모델과 결합하기는 힘듭니다. smiles에서는 scaffold에 해당하는 부분이 반드시 연속되어 나오는 것이 아니기 때문입니다. 저희는 이 문제를 분자 그래프 생성모델을 도입해 해결했습니다. 분자 그래프는 2차원이기 때문에 1차원인 smiles와 달리 기존 구조에 새로운 부분들을 추가하면서 분자를 디자인하는 것이 가능합니다.

 

모델 구조 및 algorithm

저희가 제안한 모델은 scaffold의 그래프를 입력으로 받고, 주어진 scaffold를 포함하는 분자 그래프를 output으로 생성합니다. 생성된 분자 그래프는 쉽게 다른 표현형 (smiles, sdf, mol2)으로 변경할 수 있습니다. 세부과정은 아래와 같습니다. (그림2 참조)

 

1) 입력받은 scaffold의 그래프 생성 및 원자 feature, 화학결합 feature 초기화

2) graph neural network를 이용하여 scaffold의 원자 feature 및 화학결합 feature 업데이트

3) 새로 추가될 원자의 종류 선택 ex) C, N, O, …, T (생성종료)

4) 추가된 원자와 연결될 화학결합 종류 선택 ex) 단일결합, 이중결합, 삼중결합

5) 기존 원자들 중 추가될 원자와 연결될 원자 선택

6) 기존 분자 그래프에 원자 추가 및 원자 feature, 화학결합 feature update

7) 3~6 과정 반복. 3에서 추가될 원자 종류에 'T'가 선택되면 분자 생성 종료

그림2. 골격기반 분자 그래프 생성모델의 분자 생성과정 모식도

모델은 '원본분자-scaffold'가 매칭되어있는 학습데이터를 학습하여 scaffold로부터 원본분자를 복원하는 방법을 학습하게 됩니다. 이러한 학습 과정을 통해 모델은 주어진 scaffold에서부터 scaffold를 하위구조로 포함하는 유효한 분자를 만드는 법을 배웁니다. 만일 생성된 분자의 물성도 조절하고 싶을 경우 학습 과정에서 scaffold뿐만 아니라 분자 성질도 input으로 받게 됩니다. '(scaffold, 물성) → 분자' 이 관계를 학습하게 되는 것이죠.

 

결과

저희는 이 모델을 EGFR 저해제 개발 프로젝트에 적용했습니다. 먼저 ChEMBL에서 EGFR 관련 활성 데이터를 얻었습니다. EGFR은 수천 개의 보고된 활성 데이터가 있어서 데이터의 양이 많은 타겟에 속하지만, 수천 개의 데이터만으로 딥러닝 모델의 최적 성능을 얻기는 어려운데요. 저희는 준지도학습(semi-supervised learning)을 이용해서 이 문제를 보완하였습니다. 준지도 학습은 label이 없는 대규모 데이터 (분자구조만 사용)를 사용하여 label 데이터 부족 문제를 보완해줄 수 있습니다. 다시 말해 label이 없는 대규모 데이터를 이용하여 분자를 디자인하기 위한 화학 규칙을 배우고 label된 데이터를 이용해서 EGFR에 대한 활성값을 조절한다고 이해할 수 있습니다. 모델을 학습시킨 후 실제로 분자를 생성하고 생성된 분자의 활성을 예측하여 모델의 성능을 평가하였습니다. 학습에 사용되지 않은 데이터 중 활성값이 1uM 이하 (pIC50<6)인 분자들의 scaffold를 추출하였고, 이 분자들을 input으로 하여 새로운 분자를 디자인하였습니다. 그 결과 생성된 분자들 중 상당수가 IC50 기준 수십 nM 정도의 활성을 가질 것으로 예측되었습니다.

그림3. 생성된 EGFR 저해제 예측 활성도 (reference: Chem. Sci., 2020,11, 1153-1164)

추가적으로 생성된 분자의 여러 물성을 동시에 조절할 수 있는지도 테스트해봤습니다. 이를 위해 MW, TPSA, LogP를 조절할 수 있는 모델을 새로 학습시켰습니다. 놀랍게도 scaffold가 고정되어 있어 분자를 디자인하는데 큰 제약이 됨에도 불구하고 생성된 분자의 여러 물성을 동시에 조절할 수 있었습니다. 그림 4에서 지정해준 물성에 따라 점들이 모여있는 것을 볼 수 있는데요. 이는 생성된 분자들의 물성이 지정해준 물성과 유사하다는 의미입니다. 신약개발에서는 활성, ADME/T, solubility, permeability 등 동시에 여러 물성을 만족하는 분자를 찾는 것이 중요하죠. 저희 모델이 여러 물성을 동시에 조절할 수 있다는 것은 신약개발에 있어 큰 잠재력을 가지고 있음을 보여줍니다.

그림4. 여러 물성 동시 조절문제에서 생성된 분자의 물성 분포 (reference: Chem. Sci., 2020,11, 1153-1164)

지금까지 HITS의 핵심 역량 중 하나인 분자구조 설계와 관련해 골격기반 분자 그래프 생성모델(scaffold-based molecular generative model)을 설명해드렸습니다. 이 모델을 이용해 LG화학과의 공동연구를 성공적으로 수행할 수 있었죠.

이처럼 HITS는 실제 신약개발 과정에 적용되어 실질적 도움을 줄 수 있는 딥러닝 모델을 개발하고 있습니다. 이런 연구에 관심 있으시다면 HITS에 합류하세요!

✅ 지금 채용 중인 포지션 확인

 

댓글