|
한국생명정보학회는 지난 22~25일 경주화백컨벤션센터에서 BIOINFO 2024를 열고 다양한 주제의 강연 및 워크숍을 진행했다. 의료·바이오산업 분야에서 카카오클라우드 사용 확대 및 연구 기술 고도화를 위한 이번 워크숍에 약 30여 명의 병원 관계자, 연구원, 대학생 등이 참여했다.
의료 빅데이터의 핵심 자원으로 주목받고 있는 유전체 데이터는 염기 서열 분석, 변이 식별 등 복잡한 계산을 필요로 한다. 예를 들면 사람 1명의 유전체 데이터는 약 30억 개의 염기쌍(유전 정보를 담고 있는 기본 단위)으로 이뤄져있으며, 약 2만 개의 유전자로 구성돼 있다.
이 데이터를 저장하려면 전장 유전체(한 사람의 전체 유전자 정보)는 약 120GB, 전사체(유전자 활동에 관한 정보)는 약 10GB, 메타지놈(미생물 정보)은 약 20GB가 필요하다. 이렇듯 높은 복잡도를 가진 대량의 유전체 데이터를 효과적으로 처리하기 위해선 클라우드 기반 분석 도구가 필수 불가결하다.
이번 워크숍에서는 미국 국립표준기술연구소 주도의 GIAB 컨소시엄이 제공하는 고품질 참조 유전체인 골드 스탠다드 유전체를 활용해 '인구 내 유전체 변이 발생 빈도', '유전체 변이와 질병 간 관계 및 임상적 해석', '유전체 변이가 단백질 및 유전자 기능에 미치는 해로운 영향 예측'을 위한 분석 실습을 진행했다.
효과적인 유전체 분석을 위해 지난 7월, 고려대학교 의과대학과 체결한 업무 협약의 연장선에서 제공되는 GATK 파이프라인이 활용됐다. 유전체 분석에 널리 사용되고 있는 오픈소스 GATK가 충분한 성능을 발휘할 수 있도록 카카오클라우드의 분산 데이터 처리 프레임워크인 하둡 에코 기반으로 분산·병렬 연산 아키텍처를 최적화했다.
최광묵 카카오엔터프라이즈 사업개발TF장은 "이번 워크숍을 통해 카카오클라우드 환경에서 유전체 변이 관련 발생 빈도, 임상 정보, 유해성 예측 등 다양한 데이터 분석 실습이 성공적으로 진행됐다"며 "카카오클라우드는 의료·바이오산업 분야에서 클라우드를 더욱 원활하게 사용할 수 있도록 적극 지원하고 있다"고 말했다.