bioinformatics

23andMe로 무엇을 알 수 있나

기술이나 생명과학에 관심있는 이라면 스쳐지나가는 말로 한 번 쯤은 23andMe라는 것을 들어본 적이 있을 것이다. 23andMe는 개인 유전체 분석 서비스를 제공하는 생명과학 기업이다. 이전의 유전체 분석이 주로 ‘표준(reference)’이라 불리는 소수의 인간 개체에서 비롯된 유전체를 분석하는, 일반화가 필요한 작업이었다면, 개인 유전체 분석은 말 그대로 분석을 원하는 개개인의 유전체를 분석해서 개별화된 결론을 제공하는 서비스다.

kitlaydown.f45ac485ec3c

23andMe kit (23andme.com)

150~200 USD 상당의 서비스를 구입하면 23andMe에서 여러분의 집으로 키트를 보내준다. 그 키트에 침을 뱉어 샤카샤카 흔든 다음 다시 회사로 전송하면 그 침에 있는 유전정보를 바탕으로 가능한 모든 정보(심지어 여러분의 귓밥이 말랐는지 젖었는지까지!)를 리포트해준다,는 개념이다. 23andMe는 침을 기반으로 한 유전체 분석 키트를 상용화시켜 타임 지의 ‘올해의 발명품’에도 이름을 올린 바 있다. 그 외에도 구글 설립자 중 한명인 세르게이 브린의 아내의 회사로도 알려져있고 서비스 특성상 FDA와의 아슬아슬한 줄타기로도 여러차례 언론에 등장한 바 있다.

요 평범한듯 기발한 사업구상의 핵심 서비스는 크게 두 가지라고 할 수 있을게다.

첫째는 생물학적 계보 리포트다. 나의 뿌리는 어느 대륙에서 시작했는지, 어떤 민족의 유전형질이 얼마나 섞여있는지를 리포트해준다는 것이다. 더욱 거슬러 올라가 자신에게 네안데르탈인의 유전자가 얼마나 섞여있는지 또한 알 수 있다. 실용성보다는 재미를 목표로 만든 서비스가 아닐까 싶다.

둘째는 질병 리포트다. 이러이러한 대립형질을 가지고 있는 사람들은 어떠어떠한 질병을 가질 가능성이 높으니 미리 관리 좀 하시라!는 식의 개인화된 질병 리포트를 받는다는 것은 가타카를 비롯한 공상과학 영화에서도 자주 만날수 있었던 신나는 상상이다. 150~200달러라는 (굉장히 많이 저렴해졌지만) 여전히 값나가는 서비스를 제공받고자 검토하는 소비자의 입장에서는 대부분 이 질병 리포트를 목적으로 23andMe에 등록하는 것으로 보인다.

당신과 비슷한 유전체를 가지는 사람들이 잘 걸리는 질병을 바탕으로 개개인의 질병을 예측하는 것이기에 23andMe의 질병 리포트가 더욱 정확해지고 쓸모가 있어지려면 이 회사의 서비스를 이용하는 사람이 많아져야 한다. 다행(?)히도 올해 4월 서비스 이용자가 200만 명을 돌파하는 등 승승장구하는 모습을 보면 데이터의 신뢰성을 어느정도 높게 쳐줄 수 있을 듯 하다.

23andMe는 자체 데이터베이스를 기반으로 제공하는 리포트 외에도 사용자가 직접 자신의 유전체를 분석할 수 있도록 raw data를 제공하고 있다. 이 글은 23andMe에서 제공하는 서비스 외, 내가 직접 정보를 얻어오기 위해 작성한 파이썬 스크립트에 대한 이야기다. (서론이 매우 길었다)

23andMe Raw Data

본인은 아직 23andMe를 이용해보지 않았으므로(…) 다른 분이 인터넷에 공유해 둔 raw data로 몇 가지 간단한 리포트를 제공하는 파이썬 모듈을 만들어보고자 한다. 23andMe에서 제공하는 raw data는 다음과 같이 생겼다.

스크린샷 2017-05-20 오후 6.46.44

데이터에 대한 간단한 설명과 함께 탭으로 분리된 텍스트 형식의 데이터가 나온다. 내가 사용한 다른 분의 데이터는 2011년, 아마도 일루미나 HumanHap550 BeadChip을 이용해서 만들어진 것으로 보이며 레퍼런스 지놈으로는 NCBI36(hg18) 버전을 사용했다.

  • chromosome, position은 그 말 그대로 각각 염색체와 염색체상의 위치이다.
  • rsid(Reference SNP cluster ID)는 특정 SNP(single nucletide polymorphism; 연속하지 않은 한 염기에 변이가 일어난 것)의 구별자이다. 23andMe 뿐만 아니라 국제적으로 널리 사용되는 명명법이라고 한다. 주로 ‘rs’로 시작한다.
  • rsid가 등록되어있지 않은 SNP의 경우 23andMe 내부에서 자체적으로 할당한 id를 사용한다. 이건 ‘i’로 시작한다.
  • genotype은 해당 SNP에서의 genotype을 말한다. 두 글자는 각각 엄빠로부터 받은 SNP을 의미한다. 23andMe에서는 모든 genotype을 (+) strand를 기준으로 작성한다고 한다. dbSNP 등 다른 데이터베이스에는 (-) strand의 genotype으로 기재되어있는 경우도 있어 주의를 요한다.

MyGeno: 23andMe 분석 툴

이 데이터로 세 가지 종류의 리포트를 제공하는 python module (GenoMe)을 작성해 보았다. 튜토리얼 따라 명령어 몇 줄로 쉽게 이용할 수 있다. 23andMe 서비스를 이용하고 있는 사람이라면 raw data를 다운로드받아 사용할 수 있다.

1. Wellness Report

알코올 분해를 잘 하는지, 카페인 섭취는 어떻게 되는지, 유당 분해는 가능한지 등 약 8개 항목에 대해 리포트를 출력한다. 23andMe API를 이용했다. 출력 예시는 아래와 같다.

============================== WELLNESS REPORT ============================== 

< Alcohol Flush Reaction >
------------------------------------------------------------------------------------
The marker we tested comes in two different forms, the G variant and the A variant. The A variant results in an enzyme that is less efficient at breaking down acetaldehyde. The A variant is also known as c.1510G>A, Glu487Lys, and Glu504Lys. This marker has been studied the most in people of East Asian descent.
  rsID: rs671
  Yours: G;G - homozygous
  Detail: 2 | Alcohol Flush: Normal, doesn't flush. Normal hangovers. Normal risk of Alcoholism. Normal risk of Esophageal Cancer. Disulfiram is effective for alcoholism. | 60.2% of JPT

...

2. rsid로 검색

원하는 rsid의 SNP에 대해 나의 genotype과 함께 연관 형질을 출력한다.

rs28897696 | G;G | 0 | normal | 0.0% of JPT

3. 형질로 검색

궁금한 형질을 입력하면 이와 관련된 모든 SNP와 연관 정보를 출력한다. 다음은 “baldness”를 입력한 출력 결과.

rs6152 | G;G | 0.5 | able to go bald | 100.0% of JPT
rs2223841 | T;T | 1.2 | more likely to go bald before age 40 | 100.0% of JPT
rs6152 | G;G | 0.5 | able to go bald | 100.0% of JPT
rs2223841 | T;T | 1.2 | more likely to go bald before age 40 | 100.0% of JPT
rs2180439 | C;T | 2.5 | Increased risk of Male Pattern Baldness. | 44.2% of JPT
rs11683401 | C;T |  | --% of JPT
rs2073963 | G;G | 2.5 | increased risk of baldness | 18.6% of JPT
rs1511061 | T;T |  | --% of JPT
 * more details at https://www.snpedia.com/index.php/baldness

“food allergy” 등도 좋은 예시가 될 듯.

SNP 정보가 주로 서구권에 대해서 축적된 것을 감안하여 1000 genomes project의 데이터를 포함시켰다. 기본값으로 JPT(일본 도쿄의 사람들)를 사용해서, 군집 전체에서 나와 같은 genotype을 갖는 사람들의 비율을 보여준다. 23andMe 또한 데이터가 서구권에만 집중되었다는 비판을 받곤 하는데, 이에 아시아권 군집에서의 genotype 비율을 제공하여 참고치로 사용할 수 있도록 했다. JPT 외의 다른 군집을 사용하려면 여기여기를 참고.

이미 200만 명이 넘는 사람들의 유전체 데이터를 축적한 23andMe의 리포트에 비할 바는 아니지만, 새롭게 표현형과의 연관성이 밝혀진, 아직 23andMe에는 등록되지 않은 SNP, 혹은 23andMe에서 제공하지 않는 궁금한 형질에 대해서는 쉽고 빠르게 대략의 정보를 얻을 수 있을 것이다.