2024년 노벨 화학상은 데이비드 베이커(David Baker, 1962-), 데미스 허사비스(Demis Hassabis, 1976-), 존 점퍼(John Jumper, 1985-)라는 세 명의 연구자들에게 돌아갔다. 베이커가 “계산 기반 단백질 설계(computational protein design)”라는 업적으로 절반의 상금을, 허사비스와 점퍼가 “단백질 구조 예측(protein structure prediction)”이라는 업적으로 절반의 상금을 나눠 받는다. 이 글에서는 이들의 업적을 이해할 수 있도록 이 분야에 대한 배경 설명을 한 후, 노벨상 수상자들의 업적을 간단히 살펴보고자 한다.
단백질은 생명체 안에서 다양한 기능을 수행하는 분자이다. 몸의 구조를 이루기도 하고, 다양한 화학 반응을 매개하기도 하며, 여러 물질의 균형을 맞추기도 한다. 그래서 각 단백질은 자신의 역할을 잘 수행할 수 있도록 정교한 구조를 가지고 있다. 예를 들어 면역계에서 중요한 역할을 하는 항체 분자 역시 단백질인데, 목표 분자인 항원 분자를 정확하게 인식할 수 있도록 독특한 구조를 가진다. 만약 이 구조가 제대로 만들어지지 않는다면 단백질이 해야 하는 역할을 제대로 수행할 수 없을 것이다.
그런데 단백질은 본질적으로 고분자이다. 고분자란 일정한 화학적 단위가 반복적으로 결합되어 만들어지는 큰 분자를 가리키는 말로, 단백질에서는 아미노산이라는 단위가 반복되어 긴 끈과 같은 분자를 이룬다. 그런데 이 아미노산은 단일한 것이 아니라 많은 종류가 있으며, 생체 내에서는 스무 가지의 아미노산이 주를 이룬다. 이들 아미노산은 전하를 띤 종류도 있고, 알짜 전하는 없지만 극성을 띤 종류도 있으며, 비극성인 종류도 있다. 그 결과 아미노산들은 자기들끼리 서로 다양한 상호작용을 할 수 있다. 마치 구슬이 쭉 꿰어진 긴 끈이 있고, 구슬들이 서로 밀기도 하고 당기기도 하면서 끈의 전체적인 구조를 바꿔나가는 장면을 상상해 볼 수 있겠다.
이러한 상호작용의 결과로 단백질은 정교한 구조를 만들게 된다. 이 과정을 가리켜 단백질 접힘(protein folding)이라 한다. 세포 안에서 이 단백질 접힘은 정확하게 일어나야 한다. 그렇지 않다면 구조가 잘못되어 구실을 제대로 못 하는 단백질들이 생산될 테니 말이다. 그런데 단백질은 고분자고, 고분자가 가질 수 있는 구조는 엄청나게 많을 텐데 어떻게 단백질 접힘이 거의 100% 정확하게 일어날 수 있을까? 이것이 20세기 말에 단백질을 이론적으로 연구하던 사람들의 화두였다.
고무와 같은 일반적인 고분자의 경우에는 상온에서 많은 구조가 존재할 수 있다. 단백질도 아미노산을 아무 순서로나 뒤섞어서 꿰어놓으면 이런 일반적인 고분자와 비슷하게 행동한다. 하지만 생명체 안에서 사용되는 단백질들은 특이한 성질을 가지고 있는데, 바로 기능에 사용되는 “정답” 구조가 다른 구조들에 비해 압도적으로 안정하다는 것이다. 자연은 안정적인 상태를 선호하기 때문에, 단백질이 순간적으로 다른 구조를 가진다 하더라도 금세 정답 구조로 돌아올 수 있게 된다. 이것이 90년대에 단백질 접힘을 연구하던 사람들이 내린 결론이었다.
그럼 단백질 접힘 문제는 “해결”된 것일까? 단백질 접힘 문제는 두 가지로 나누어 생각해 볼 수 있다. 단백질 접힘이 어떻게 거의 오류 없이 항상 일어날 수 있는지에 대한 근본 원리를 찾는 문제와, 구체적으로 개별 단백질이 어떻게 접혀서 어떤 구조를 만들어내는지를 알아맞히는 문제이다. 첫 번째 문제는 90년대의 연구로 어느 정도 해결되었다고 할 수 있지만, 여전히 두 번째 문제는 쉽지 않은 문제였다.
단백질에서 아미노산이 어떤 순서로 꿰어져 있는가를 나타내는 정보를 가리켜 “서열(sequence)”이라고 부른다. 단백질의 서열 정보는 단백질의 설계도 역할을 하는 유전자의 정보로부터 알아낼 수 있다. 생명체의 유전자 정보를 쭉 읽어내는 것을 시퀀싱(sequencing)이라고 하는데, 21세기 들어 시퀀싱 기법이 빠른 속도로 발전하면서 비용과 시간이 극적으로 감소하였다. 그 결과 현재는 인간 몸 안의 유전자를 전부 밝혀냈고, 이를 이용해 인간 단백질의 서열 정보 역시 다 알아냈다.
문제는 각 단백질이 몸 안에서 어떻게 기능하는지를 이해하기 위해서는 단백질의 구조를 알아야 하는데, 이것이 어렵다는 것이었다. 현재 단백질의 구조를 알아내는 기법으로는 X선 결정학, 핵 자기 공명법, 저온 전자 현미경 등이 있으며, 각 방법의 장단점은 있으나 하나 같이 시간과 노력을 많이 요구한다. 인류는 수십 년간 이러한 노력을 기울여 한 분자 한 분자 구조를 풀어냈고, 그 결과 현재 20만 개 이상의 단백질 구조를 데이터베이스화하여 가지고 있다. 언뜻 듣기에는 적지 않은 수 같지만, 여전히 알려진 서열의 수에 비교하면 알려진 구조의 수는 턱없이 적다.
연구자들은 여기서 “컴퓨터를 이용해 서열 정보로부터 구조 정보를 알아낼 수는 없을까?”라는 생각을 해냈다. 우리가 대략 단백질 내의 상호작용은 이해하고 있으니, 그 상호작용을 컴퓨터 모델로 잘 만들어내면 쭉 펼쳐져 있는 단백질이 자연스레 “정답” 구조로 접히지 않을까? 아니면, 비슷한 서열은 비슷한 구조를 만든다고 가정하면 이미 구조를 알고 있는 단백질 서열 정보를 참고해 비슷한 서열을 가진 구조를 가져와서 내가 목표로 하는 단백질의 구조를 찾을 수 있지 않을까? 이런 아이디어들에서 출발하여 서열로부터 구조를 예측하는 여러 방법론들이 개발되었고, 이렇게 “단백질 구조 예측” 분야가 형성되었다.
구조 예측 전문가들은 2년에 한 번씩 각 방법론의 정확도를 점검하는 대회를 연다. 이 대회는 Critical Assessment of Structure Prediction의 앞 글자를 따 CASP라 불리는데, 다음과 같이 운영된다. 주최 측에서 실험적으로 구조를 찾았지만 아직 대외적으로 발표하지 않은 단백질을 구해 그 서열을 공지하면, 각 연구실에서 자신의 방법론으로 구조를 예측하여 정해진 날짜까지 제출한다. 이후 정답 구조와 비교하여 얼마나 가깝게 예측했는지를 점수로 매기고, 이를 홈페이지를 통해 발표한다. 온라인으로 운영되기 때문에 누구나 참여할 수 있고, 심지어 몇 년 전에는 북한 과학자들이 이 대회에 참여하여 이슈가 되기도 했었다. 이 대회를 통해 과학자들은 서로의 방법론을 비교하고 배울 것은 배워가며 구조 예측 프로그램의 정확도를 향상시켜 왔다.
2024년 노벨 화학상 수상자 중 하나인 데이비드 베이커는 학부생 때 처음 단백질 접힘 문제에 관심을 가졌다고 한다. 생화학 수업 기말 페이퍼를 쓰던 베이커가 담당 교수에게 단백질 접힘에 관해 써도 되는지 문의했고, 교수는 단백질 접힘 문제는 아무도 이해하지 못하는 문제라며 다른 주제를 잡을 것을 권했다. 베이커는 잠시 이 문제를 내려놓고 있다가 1993년 워싱턴 대학교의 교수로 임용되면서 본격적으로 연구를 시작했다. 베이커는 1998년 로제타(Rosetta)라는 이름의 구조 예측 프로그램을 발표하였고, 그 이후 프로그램을 발전시키면서 CASP에도 꾸준히 참여하였다.
단백질 구조 예측 분야에서도 베이커 연구팀이 독특한 점은 창의적인 접근법을 많이 활용했다는 점이다. 두 가지 예만 살펴보자. 베이커 연구팀은 2004년 로제타앳홈(Rosetta@home)이라는 프로젝트를 발표한다. 이는 전세계에 흩어져 있는 개인 컴퓨터 자원을 단백질 구조 예측에 활용하는 프로젝트였다. 화면 보호기가 켜져 있으면 사용자가 컴퓨터를 사용하지 않는 것이므로, 화면 보호기가 켜져 있는 동안 그 컴퓨터의 자원을 사용하여 구조 예측에 필요한 계산을 수행하는 원리이다. 이는 일찍이 외계 생명체 신호를 찾는 세티앳홈(SETI@home) 프로젝트에서 사용된 방법인데, 이를 단백질 구조 예측에 접목시킨 것이다.
또 베이커는 인간 지능을 단백질 구조 예측에 사용하는 시도도 했는데, 2008년 발표된 폴드잇(FoldIt) 게임이 그것이다. 앞서 살펴본 단백질 접힘의 원리를 떠올려보면 단백질의 “정답” 구조는 가능한 많은 구조 중 가장 낮은 에너지를 가질 것이므로, 에너지를 뒤집어 점수화하면 점수가 더 높은 구조가 정답에 더 가까운 구조가 될 것이다. 이러한 아이디어에 기반하여 단백질 구조가 형성되는 기본 원리를 게임 규칙으로 만들고 사용자들이 높은 점수를 추구하도록 하면 결국 인간 지능을 활용해 단백질 구조 예측을 할 수 있게 된다. 이 게임을 통해 단백질 접힘 문제가 널리 홍보되었을 뿐만 아니라, 심지어 아직 구조를 모르는 단백질의 구조를 푸는데 폴드잇 게임의 결과가 활용되기도 했다.
이러한 발전에도 불구하고 구조 예측 프로그램의 정확도는 그리 높지 않았다. 일부 단순한 단백질의 구조는 꽤 정확하게 예측할 수 있었지만, 조금만 단백질이 복잡해지면 구조를 정확히 예측하는 것은 불가능에 가까웠다. 그래서 생물학자들에게 구조 예측 프로그램은 큰 쓸모가 없었다. 어차피 정답 구조를 알기 위해서는 실험을 수행해야 했기 때문이다. 베이커는 이 “적당히 정확한” 구조 예측 프로그램을 다른 쪽으로 활용하려는 아이디어를 낸다. 바로 계산 기반 단백질 설계였다.
단백질 설계는 목표로 하는 구조를 먼저 떠올리고, 그 구조로 접히는 단백질 서열을 찾는 문제라고 할 수 있다. 베이커는 로제타 프로그램의 정확도가 아주 완벽하다고 말할 수는 없지만 어느 정도의 정확성은 보장하므로, 빠른 속도로 많은 수의 서열을 탐색하여 목표 구조를 만들어내는 서열의 “후보군”을 골라내는 데에 활용할 수 있을 것이라 생각했다. 일단 그렇게 몇 개의 후보를 골라내면, 실험실에서 그 단백질들을 실제로 만들어 원하는 구조로 접혔는지 실험을 통해 확인해 볼 수 있을 것이다. 이런 단백질 설계 방법을 데노보(de novo) 설계라고도 부르는데, 인류가 만난 적 없는 단백질을 새로 만들어낸다는 의미이다.
이러한 과정을 거쳐 2003년에 베이커는 최초로 계산을 통해 설계된 단백질, Top7를 세상에 내놓는다. 처음에는 조그만 단백질을 설계하던 베이커 연구팀은 점차 크고 복잡한 단백질에 도전하였고, 최근에는 바이러스와 유사한 구조의 단백질, 어마어마하게 큰 단백질 조립체, 센서로 사용될 수 있는 단백질, 모터처럼 작동하는 단백질 등을 만들어서 발표하였다. 현재 베이커 연구팀은 단백질의 데노보 설계를 선도하고 있으며, 이번 노벨 화학상은 베이커의 이러한 업적을 인정하여 수여되었다고 보아야 할 것이다.
한편, 2020년 열네 번째 CASP 대회에서 놀라운 소식이 전해진다. 2등을 한 베이커 그룹의 프로그램보다 정확도 점수를 두 배 이상 획득하여 1등을 차지한 프로그램이 등장한 것이다. 이 프로그램의 이름은 알파폴드(AlphaFold) 2. 이 프로그램의 개발자들은 이듬해 《네이처》지를 통해 프로그램의 원리를 발표했다. 비결은 기계 학습에 있었다. 실험적으로 얻어낸 대규모의 서열 정보와 구조 정보가 데이터베이스로 정리되어 있으니, 이 데이터를 기계 학습의 대상으로 삼아 서열을 받아 구조를 예측하는 프로그램을 만든 것이다. 알파폴드 2는 거의 실험 오차에 버금가는 수준의 정확도를 보였고, 단백질 구조 예측 분야에 신기원을 열었다.
그렇다면 알파폴드 2가 최초로 단백질 구조 예측 분야에 기계 학습을 활용한 프로그램일까? 그렇지 않다. 기계 학습은 오래전부터 발전해 오고 있던 분야였고, 단백질 구조 예측에 기계 학습을 활용하려는 시도도 90년대부터 있어 왔다. 알파폴드 2의 차별점은 최근 놀라운 성능을 보여주고 있는 딥러닝 기법을 활용했다는 점과, 그 과정에서 단백질 구조 예측 문제를 3차원 그래프 문제로 환원하여 풀었다는 점이다. 이 프로그램을 개발하는데 주도적인 역할을 수행한 것이 또 다른 2024년 노벨 화학상 수상자인 데미스 허사비스와 존 점퍼이다.
허사비스는 인공지능 전문가로서 2010년 딥마인드(DeepMind)라는 인공지능 회사를 설립하였고, 이 회사의 가치를 알아본 구글이 2014년 이 회사를 사들이면서 회사와 함께 구글 산하로 들어간다. 딥마인드가 세상에 유명해진 계기는 아무래도 알파고(AlphaGo)일 것이다. 알파고는 바둑 인공지능 프로그램으로, 딥러닝 기법을 게임 전략에 접목하여 그 승률을 획기적으로 높였다. 2015년 판후이 2단과의 대전에서 5전 5승을 거두어 최초로 인간을 이긴 바둑 프로그램이 된 알파고는, 2016년 이세돌 9단을 4승 1패로 격파하고 2017년 커제 9단까지 이김으로써 인공지능의 게임 플레이 능력을 보여주었다.
알파고가 이세돌 9단에게 승리한 후, 승리를 자축하는 자리에서 허사비스는 알파고 개발팀에게 “이제 때가 되었다.”라고 말했다고 한다. 허사비스는 학부 시절부터 단백질 접힘 문제가 중요하다는 인식을 막연하게나마 하고 있었다. 그는 이후 베이커 연구팀에서 만든 폴드잇 게임을 직접 플레이하면서 단백질 접힘 문제와 게임 사이의 공통점을 발견했다. 알파고를 통해 인공지능이 게임 플레이에 있어 인간을 뛰어넘는 능력을 보여줄 수 있음을 증명한 그는, 이제 그 능력을 단백질 접힘 문제를 푸는데 적용해 보기로 결심했던 것이다. 허사비스는 이후 바로 알파폴드 팀을 만들었고, 2018년 CASP 대회에 알파폴드를 내보낸다. 이 대회에서 알파폴드는 1등을 했지만, 다른 프로그램들과의 점수 차이가 크지는 않았다. 당시 알파폴드는 그저 조금 다른 접근법으로 단백질 구조 예측을 시도하는 많은 프로그램 중의 하나에 불과했다.
상황을 뒤집은 것은 점퍼 연구원이었다. 점퍼는 단백질 전문가였다. 그는 쇼 연구소(D. E. Shaw Research)라는 단백질 시뮬레이션 연구소에서 3년간 경험을 쌓았고, 시카고 대학교에서 2017년 계산생물학으로 박사 학위를 받았다. 그 이후 딥마인드에 입사해 알파폴드 팀에서 일하면서 알파폴드 2의 개발을 이끌었다. 그의 창의적인 아이디어로부터 알파폴드 2의 정확도가 도출되었고, 그 결과 그는 서른아홉이라는 젊은 나이에 노벨 화학상의 영예를 얻게 되었다(그는 1952년 이후의 노벨 화학상 수상자 중 가장 젊은 나이에 상을 받은 사람이다).
알파폴드 2가 발표된 후, 딥마인드는 유럽 분자생물학 연구소(European Molecular Biology Laboratory)와 협업하여 지금까지 알려진 단백질 서열들에 알파폴드 2를 적용해 각 구조를 예측하는 작업을 수행한다. 그 결과로 2억 개 이상의 구조를 얻어낼 수 있었으며, 이를 무료로 웹상에 공개하였다. 생물학계는 충격에 휩싸였고, 처음에는 알파폴드 2의 정확성을 의심하던 사람들도 여러 단백질에서 알파폴드 2가 일관되게 보여주는 정확성을 보면서 마음을 돌리기 시작하였다. 지금은 알파폴드 2의 예측 구조가 실험적으로 결정된 구조 못지않게 타당한 데이터로 여겨지고 있다.
이 글에서는 2024년 노벨 화학상의 배경과 더불어 수상자들의 업적을 개괄해 보았다. 생체 내의 단백질들은 각자만의 정답 구조를 가지고 그 기능을 수행하기에 그 구조를 알아내는 것이 중요하다. 연구자들은 오랫동안 서열 정보만으로 구조를 정확하게 예측할 수 있기를 꿈꿔 왔다. 허사비스와 점퍼의 업적은 그 꿈을 현실로 만들어 준 알파폴드 2를 개발한 것이다. 베이커는 이렇게 정확한 프로그램이 나오기 전에도 구조 예측 프로그램의 도움을 받아 인류가 본 적 없는 단백질을 새로 설계하는 일을 해왔고, 이러한 공로를 인정받아 이번 노벨상을 수상한다. 앞으로도 알파폴드 팀과 베이커 연구팀을 비롯한 여러 연구자들은 선의의 경쟁을 해나가면서 컴퓨터를 이용해 여러 생체분자의 성질을 예측하고 새로운 생명 현상을 설계하는 일을 해나갈 것이다. 이번 노벨상을 계기로 이들의 노력과 성과가 널리 알려지길 바란다.
9
독자님의 정보를 입력해주세요.
* 는 필수항목입니다
첨부파일은 최대 3개까지 가능하며, 전체 용량은 10MB 이하까지 업로드 가능합니다. 첨부파일 이름은 특수기호(?!,.&^~)를 제외해주세요.(첨부 가능 확장자 jpg,jpeg,png,gif)