[유전체 데이터 분석 내용 정리] 2. 유전체 데이터 분석 개요 (Genome Data Analysis)
목차
◎ 오믹스?
◎ 유전체 데이터 분석 개요
◎ 유전체 데이터 분석 결과 개요
◎ 오믹스?
앞서 [유전체 데이터 분석 내용 정리] 1. 생명정보학 에서 '다중오믹스 정보'에 대해 언급했다. '다중오믹스 정보' 에서 다중은 '여러 가지' 라는 의미이고, '오믹스' 는 '체학' 을 의미한다. 체학은 집합체에 대한 연구를 의미하는데, 생물학 관련 체학으로는 유전체학, 전사체학, 단백체학 등이 있다. 그러니까 질병을 연구하는데 다중오믹스 데이터를 사용한다는 것은 유전체 데이터도 활용하고 전사체 데이터도 활용하고 단백체 데이터도 활용하고... 다 쓴다는 의미이다.
이 글에선 여러가지 체학 대상 중에서 유전체에 대해 얘기해보려 한다. 유전체는 유전자의 총체적인 특징을 의미하고, 이를 연구하기 시작한 건 왓슨과 크릭이 A, G, T, C 4개의 핵산의 1차원적 서열 조합이 유전 암호임을 밝혀내면서부터이다. 이후 생어가 염기서열해석법 (생어 시퀀싱) 을 고안하면서 유전체 데이터를 사용할 수 있게 되었고, 인간 유전체 프로젝트부터 1000$ 유전체 분석 시대가 오기까지 정말 많은 발전이 있었다.
◎ 유전체 데이터 분석 개요
지금 자리잡은 유전체 데이터 분석 흐름은
- Sequencing
- Mapping
- Variant Calling
- Variant Annotation
로 요약할 수 있다. 각 단계의 의미를 간단하게 설명한 뒤, 자세한 내용은 따로 다룰 예정이다.
Sequencing 단계는 염기서열을 알아내는 단계이다. 요즘은 차세대 시퀀싱 (NGS) 방식으로 high throughput 하게 염기서열을 얻을 수 있다.
Mapping 단계는 Alignment라고도 불리는데, 알아낸 염기서열을 참조 염기서열 (reference genome) 과 비교하여 유전체 중 어느 부분의 염기서열인지 알아내고 차이점을 캐치하는 과정이다.
Variant Calling 단계는 Mapping 단계에서 캐치한 차이점을 적절한 기준을 통해 변이로 분류하는 단계이다. 이 단계에서 SNV (Single Nucleotide Variation, 단일 염기서열 변이), Indel (Insertion & Deletion, 삽입/결실) 등을 확인할 수 있고, 확인한 결과는 VCF 형식의 파일로 저장된다.
Variant Annotation 단계는 찾아낸 변이가 기존에 발견된 변이인지, 새로운 변이인지, 아미노산 서열에 변화를 일으키는지 등의 속성에 대해 주석을 다는 과정이다.
◎ 유전체 데이터 분석 결과 개요
1. 유전체 다형성
이러한 분석 방식으로 알아낸 결과 중 주목할 만한 것은 첫째로 단일 염기서열 변이, 즉SNV이다. A, C, T, G로 이루어진 염기서열 중 특정 염기 위치가 사람마다 다르게 나타나는 경우를 말한다. 염기가 서로 다르면 그 서열로 코딩된 단백질의 구조가 서로 다를 수 있고, 이러한 유전형 (genotype) 의 차이가 개개인의 표현형 (phenotype) 의 차이를 설명할 수 있다. SNV는 소수대립유전자 (minor allele) 의 빈도가 1% 이상일 경우 SNP (Single Nucleotide Polymorphism, 단일 염기 다형성) 으로, 미만일 경우 돌연변이(point mutation) 로 다시 분류할 수 있고, 이 둘의 의학적 해석에는 큰 차이가 있다. 돌연변이는 단순 형질 (simple trait) 희귀 유전질환의 원인으로 지목되지만, 다형성은 복잡 형질 (complex trait) 을 보이는 흔한 질병 (common diease) 의 발생기전이라 제시된다.
유전체 다형성의 또 다른 형태는 단일 염기가 아닌 긴 유전체 구간분절 (genomic segment) 에서 발생하는 결손 (deletion), 증편 (amplification), 이동 (transposition) 등과 같은 구간 분절 다형성 (Copy Number Polymorphism) 이 있다. 맨 처음에는 다형성이라고 불리지 않았지만, 연구가 거듭됨에 따라 앞서 언급한 형태가 정상세포에서도 나타나고, 인간 유전체의 약 12%의 영역에서 폭넓게 나타난다는 사실이 밝혀져 다형성으로 분류됐다.
CNV에 대한 보다 자세한 내용은 click
[유전학 중요개념 정리] Structural variation 및 Copy-number variation
일반적으로 사람의 염색체는 부모로부터 한쌍씩 물려받아 23쌍, 총 46개를 갖게 됩니다. 이러한 염색체의 수적 이상 또는 구조적 이상이 발생하는 경우 염색체 이상에 의한 질환을 갖게 됩니다.
2wordspm.com
이러한 다형성의 분석은 약물 유전체학의 탄생을 이끌어 정밀의학에 한 걸음 다가가는 원동력이 돼주었다. 개인의 유전형에 따라 약물 반응성이 다를 수 있음이 밝혀졌기 때문이다.
2. 유전체 발현 분석
유전형의 구조적 변이를 활용하는 방식 외에, 유전자들의 발현량을 분석하는 방식으로 유전체 데이터를 활용할 수도 있다. 이를 기능 유전체학 (functional genomics) 라고 부르는데, DNA 마이크로어레이 등을 기반으로 하여 유전체의 기능 차이를 비교하는 방식으로 실제로 암의 분류와 치료 방식 결정에 많이 사용되고 있는 방식이다.
DNA 마이크로어레이에 대한 보다 자세한 내용은 click
[Mircoarray] DNA 미세배열
[Mircoarray] DNA 미세배열 Start BioinformaticsAndMe DNA microarray : 마이크로어레이는 매우 작은 DNA 조각들이 고체 표면에 집적된 DNA Chip : 대량 유전자의 발현 정도를 동시에 측정하여, 그룹 간의 유..
bioinformaticsandme.tistory.com
이 외에도 유전체 데이터를 활용하는 방법으로는 마이크로 RNA 분석, 후성 유전체학 등이 있다.
[참고자료]
https://m.blog.naver.com/sw4r/221543221431
[생물정보학 기초] SNP VS. SNV 완벽 비교 분석!
Genomic 연구를 하다 보면 SNP과 SNV라는 개념을 자주 보게 되는데, 특히 SNP이 대부분 보이고, ...
blog.naver.com
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791159431876
유전체 데이터 분석. 2: NGS편, 암과 질병 유전체 - 교보문고
“미래를 예측하는 최고의 방법은 우리가 미래를 발명해버리는 것이다.”- 알란 케이바이오인포매틱스라는 낯설고 긴 이름의 학문이 국내에 소개된 지도 20여 년이 흘렀다. 초기의 서열 정렬과
www.kyobobook.co.kr