펄이 바이오인포매틱스에 지대한 공헌을 했다는 사실은 널리 알려져 있으나 이에 비해 바이오인포매틱스가 펄과 월드 와이드 웹에 공헌한 바는 덜 알려졌다. 현재 가장 널리 사용되고 있는 펄 모듈인 CGI.pm이 게놈 지도를 만들고자 했던 한 연구자에 의해 써졌다는 것만 보아도 바이오인포매틱스가 펄에 공헌한 바는 무시할 수 없다. 다시 말해 CGI.pm 모듈은 정적 페이지의 디렉토리에서 동적인 데이터베이스구동 매체로 웹 개발을 도왔다. 텍스트를 관리하는 빠르면서 쉽고 저렴한 도구는 링컨 스타인이라는 연구자에 의해 그 사용방법이 극대화 되었으며 그 결과 펄과 바이오인포메틱스 사이의 결합은 결실을 맺기 시작했다.
현재 링컨 스타인은 뉴욕, 콜드 스프링 하버에 있는 콜드 스프링 하버 실험실(
Cold Spring Harbor Laboratory)에서 연구자로 근무하고 있으며 프로그래머이자 소프트웨어 저작자이다. 펄과 웹에 끼친 의미심장한 공헌 이외에도 그는 생물학적 데이터베이스, 데이터 분석 및 시각화, 결과 공유를 위해 소프트웨어를 쓰고 있다. 또한 「Web Techniques」와 「The Perl」에 기사를 쓰고 있으며 이런 주제와 관련된 책을 몇 권 쓰기도 했다.
링컨은 오라일리에서 주최할
바이오인포매틱스 기술동향 컨퍼런스에서 기조 연설을 하게 될 것이다. 우리는 그가 현재 진행하고 있는 프로젝트, 생물학 특허 문제와 관련한 그의 의견에 대해 이야기를 나누었으며 왜 펄이 바이오인포매틱스에 필요한 프로그래밍 언어로 선택되었는지에 대해서도 물어보았다.
스튜어트: 언제 처음으로 바이오인포매틱스에 관심을 갖게 되셨습니까?
스타인: 완전히 우연한 기회에 관심을 갖게 되었습니다. 그 당시 나는 기생충의 배아기 발달 단계를 연구하는 세포 생물학과 대학원생이었죠. 나는 기생생활을 하지않고 독립생활을 하는 곤충의 형태에서 감염 매개 곤충으로 전환하는 단계에 있는 유전자를 순서대로 배열했습니다. 나는 유전자를 배열하고 그 유전자를 어셈블하는 서열 분석 소프트웨어(다양한 종류의 유전자 조각 단편들을 전체 유전자로 재어셈블하기도 하는 소프트웨어)를 사용해보고 싶었습니다만 그 당시 학과에 비치된 VAX를 사용하는데 한 달에 15달러나 지불하라고 하더군요. 유감스럽게도 그 당시 제게는 그렇게 많은 돈을 지불할 만한 여유도 없었구요.
그때 나는 워드 프로세서용으로 사용하던 매킨토시를 가지고 있었고 서열 분석을 하는 프로그램을 만드는 일이 그렇게 어려운 일은 아닐 것이라고 생각했었죠. 그래서 서열 어셈블러를 쓰기 위해 68000 어셈블리 언어를 배웠습니다. 그 어셈블러로 내가 발견한 서열들을 어셈블하고 내 학위 논문을 발표하고 그 이후로도 계속해서 행복하게 살고있죠…….
스튜어트: 전산학자와 생물학자 중 누가 더 다른 분야를 배우는데 힘들어 할까요? 그리고 그 이유는 무엇이라고 생각하십니까?
스타인: 글쎄요… 생물학자가 컴퓨터를 배우는 것보다는 전산학자가 생물학을 공부하는데 훨씬 더 어려운 시간을 보낼 것 같습니다. 왜냐하면 실험적인 학문이라는 생물학의 특성상 전산학자들이 생물학을 이해하기 위해서는 전반적인 패러다임의 전환 단계를 반드시 거쳐야 하기 때문이죠. 대조적으로 물리학자들이 생물학을 배우는 데는 아무 문제가 없습니다. 오늘날 생물학자에게 있어 소프트웨어 개발은 그저 습득해야 할 새로운 기술 중에 하나일 뿐입니다.
스튜어트: 그렇군요. 그러면 이제부터는 현재 선생님께서 진행하고 계시는 프로젝트와 관련된 질문을 시작해보겠습니다. AcePerl과 AceBrowser이 무엇인지 간략하게 설명해주시기 바랍니다.
스타인: AcePerl은 Acedb 데이터베이스를 위한 API의 일을 하는 펄 모듈입니다. Acedb는 생물학 데이터 모델링 뿐만 아니라 지리학적 데이터베이스와 같은 기타 특정 영역에서 널리 사용되는 객체지향 데이터베이스 입니다. AcePerl 이전의 유일한API는 C였습니다. 이와 관련된 프로젝트로는 자바 API를 다루는 Jade가 있습니다.
AceBrowser는 Acedb로 연결되는 웹기반 전위로서 유저가 웹을 통해 Acedb 데이터베이스를 브라우징 할 수 있게 해줍니다.
스튜어트: BoulderIO 프로젝트에 대해서도 조금만 말씀해 주십시오.
스타인: 간단한 tag/value 구문을 사용하여 웹으로 생물학적 객체를 전송하고자 하는 목표로 진행되던 이 프로젝트는 안타깝게도 더 이상 진행되지 않습니다. 이 프로젝트는 XML로 대체되었으며 XML은 거의 똑같은 일을 할 수 있는 능력을 가졌죠.
스튜어트: 방금 말씀하신 것이 지금 실제로 일어나고 있는 현상에 대한 것입니까? 선생님께서는 생물학적 데이터는 축적되어 있으나 서로 전혀 다른 방식으로 데이터베이스화 되어있는 현재 상황과 관련된 문제점들에 대한 해답을 XML이 제시해주고 있다고 생각하십니까?
스타인: XML은 지금 생물학적 데이터베이스 사이에서 정보를 적절하게 교환해주는 솔루션으로 가장 선호되고 있습니다. 물론 XML이 마치 마법처럼 문제를 해결해 주고있다고는 볼 수 없지만 그러한 해답을 가능하게는 해주고 있죠.
스튜어트: 지금 가장 흥미를 갖고 진행중인 프로젝트로는 무엇을 들고 싶으신지요?
스타인: 제가 특히 관심이 많은 프로젝트는 분산 서열 주석 첨부 시스템(
DAS: Distributed Sequence Annotation System)을 들 수 있습니다. 그것은 유전자의 주석(여기서 유전자의 주석이 의미하는 것은 유전자의 위치처럼 특정 지역에 있는 게놈의 존재 이유를 설명한 것을 뜻함)이 서로 공유될 수 있도록 해줍니다. 그것은 게놈 서열 표시기를 쓸 수 있고 근본적인 데이터베이스나 데이터 모델과는 상관 없이 그것이 서로 다른 다중 데이터베이스에서 작동할 수 있는 내가 알고있는 유일한 예제 입니다.
스튜어트: 현재 바이오인포매틱스에서 사용되고 있는 도구를 개선하기위해 어떤 조치들이 취해질 수 있습니까?
스타인: 소프트웨어 엔지니어링에 대한 좀더 많은 관심이 필요하죠. 가령 표준 순응성, 품질 관리, 문서화 작업등이 그런 것들이 되겠지요. 저는 또한 오픈 소스 활동의 강력한 옹호자입니다. 만약
바이오펄과
바이오자바 프로젝트가 그려내는 선을 따라 좀더 다양한 바이오인포매틱스 소프트웨어가 조직화된다면 우리는 확실히 현재보다 훨씬 더 개선된 세상에 살게 될 것이 분명합니다. 그러나 현재 개방, 폐쇄, 독점 소프트웨어의 불협화음으로 어울리지 않는 컴포넌트, 반쪽짜리 솔루션, 버그로만 이루어진 소프트웨어 등등 아뭏튼 바이오인포매틱스계는 여러 가지가 뒤죽박죽 섞인 채 혼란상태에 빠져있습니다.
스튜어트: 선생님께서는 펄을 오래 전부터 사용해오고 계셨습니다. 바이오인포매틱스에서 사용될 주요 언어로 펄이 선정된 이유가 무엇이라고 생각하십니까?
스타인: 펄은 텍스트 데이터를 잘 다루는 언어입니다. 그리고 바이오인포매틱스 연구의 대부분을 차지하는 DNA와 단백질 서열은 대부분이 텍스트로 이루어져있죠.
스튜어트: 최근
이완 버니씨와 인터뷰를 한 적이 있습니다. 그 분도 웹 개발의 많은 부분이 실제적으로는 바이오인포매틱스 특히 선생님의 CGI.pm 모듈로 인해 육성되었다고 말씀하셨습니다. CGI.pm은 현재 사용되고 있는 펄 모듈 중에서 아마 가장 널리 사용되는 펄 모듈일 것입니다. 이 모듈을 작성하게 된 특별한 계기가 있었습니까? 혹시라도 미래에 CGI.pm을 변경할 계획은 있으신지요?
스타인: CGI.pm은 내가 MIT 게놈 연구 센터인 Whitehead 연구소에 있을 때 작성한 것입니다. 나는 이 연구소의 게놈 지도를 발표하기위한 펄 모듈이 필요했었죠. 그때 GD 모듈도 같이 작성했었습니다. CGI.pm은 월드 와이드 웹 프로토콜의 변화에 발맞추어 꾸준히 업데이트 되어왔습니다. 예를 들어 가장 최신에 배포된 것은 P3P 쿠키를 지원하고 있지요.
스튜어트: 오픈 소스, 오픈 사이언스 및 상업적인 사업간의 관계에 대해 어떻게 생각하십니까?
스타인: 만약 바이오인포매틱스 연구 단체가 어떤 소프트웨어를 사용한 출력 결과에 바탕을 둔 성과를 발표할 경우 그 소프트웨어에 해당하는 소스 코드는 검증 대상으로 이용될 수 있어야 합니다. 이것은 생물학의 모든 측면에 적용되는 실증성과 재생성에 대한 아주 기본적인 사항입니다. 이것은 모든 바이오인포매틱스 소프트웨어가 오픈 소스 개발 모델을 사용해서 개발되어야 한다거나 로열티를 지급하지 않는 기준에 따라 사용되어야 한다는 뜻은 아닙니다. 그러나 만약 연구자가 내가 작업하고자 하는 결과의 일부를 발표할 생각이라면 나는 그들이 작업한 것을 재생산 하도록 격려하고 싶습니다.
스튜어트: 유전자 특허는 인정되어야 합니까? 단백질 특허는 어떻습니까? 자연 발생하는 단백질은요?
스타인: 나는 자연적 발생 산물인 유전자나 단백질의 새로운 사용에 대해서는 특허를 인정할 수 있다고 생각하지만 유전자나 단백질 그 자체에 대해서는 특허를 인정할 수 없다고 봅니다.
스튜어트: 바이오인포매틱스와 관련된 풀리지 않은 문제들 중에서 미래에 위대한 과학적 진보를 낳을만한 이슈들에는 어떤 것들이 있다고 생각하십니까?
스타인: 글쎄요… 어떻게 유전자들이 규제를 받는지, 어떻게 단백질이 하위세포 목적지로 설정되는지, 어떻게 뇌가 기억을 저장하는지… 이런 것들이 밝혀진다면 과학이 엄청난 성과를 거두어 들였다고 말할 수 있을지도 모르겠네요…
스튜어트: 오라일리에서 추최하는 바이오인포매틱스 컨퍼런스 기조 연설에서 무엇에 대해 말씀하실 생각이십니까?
스타인: 글쎄요… 저도 아직 모르는 바이오인포매틱스의 풀리지 않는 문제에 대해 이야기해 볼까요?
†편집자 주: 우리는 사실 링컨이 "바이오인포매틱스--작은 도시에서 제국 건설하기"라는 타이틀로 기조연설하게 될 것이라는 것을 실제로는 알고 있었다.