목차
◎ NGS의 등장
◎ NGS 구분
◎ short-read NGS (1)
◎ NGS의 등장
차세대 시퀀싱이라고도 불리는 NGS는 어떤 시퀀싱 기술을 특정하는 것이 아니라 생어 시퀀싱의 문제점인 low throughput을 극복한 high throuput seuqnecing 기술들을 총칭하는 말이다. 생어 시퀀싱과 달리 많은 수의, 다양한 종류의 DNA fragment들을 한 번에 처리할 수 있고, 그 특성 때문에 massive-parallel sequencing과도 같은 의미로 쓰인다.
2005년 454 Life Science의 pyrosequencing을 필두로 NGS의 시대가 도래했고, 속도와 가격, 그리고 성능의 발전 덕분에 whole exome, whole genome, whole transcriptome 등 수많은 omics 데이터가 산출됐다 (그런 점에서 시퀀싱 대상은 DNA가 아닐 수도 있지만 편의상 DNA로 통일하여 작성하겠다).
생어 시퀀싱과 NGS의 차이점 | ||
항목 | 생어 시퀀싱 | NGS |
Electrophoresis | 사용함 | 사용하지 않음 |
자동화 | 부분 자동화 (electrophresis시 자동화된 capillary electrophoresis 사용) | 완전 자동화 |
시퀀싱 중 시퀀스 확인 | 불가능. 시퀀싱 후 electrophresis로 리드를 크기순으로 정렬한 뒤 가능 | 가능 |
DNA template 준비과정 | DNA fragment가 세포를 통해 cloning 되거나 PCR을 통해 증폭됨 | short-read NGS: DNA fragment를 adapter와 결합한 뒤 (생략할 수도 있음) PCR을 통해 증폭됨 long-read NGS: 증폭되지 않은 하나의 gragment 사용 |
read length | 약 500~1kb | 약 35~14kb (플랫폼마다 상이) |
한 번에 시퀀싱 되는 template 수 | 하나 | 상당수 |
throughput | 낮음 | 높음 |
error rates | 낮음 | 높음. 많은 수의 시퀀싱을 통해 극복 |
적용 | small-scale DNA sequencing | 현대 생명정보학의 전분야 |
◎ NGS 구분
NGS를 실현한 시퀀싱 방법 (플랫폼이라고 한다) 은 여러 가지가 있고, 플랫폼들은 만드는 read (시퀀싱 결과물) 의 길이에 따라 short-read와 long-read로 구분할 수 있다 (이 구분은 2016년 개제 된 논문을 따랐다). short-read의 경우 보통 PCR로 template을 증폭하고, long-read의 경우 보통 PCR 증폭 과정을 거치지 않기 때문에 PCR 사용 여부로 판단해도 좋을 것 같다. NGS의 구분이 어찌 됐든, 모든 플랫폼은 아래의 과정을 따른다는 공통점이 있다
- Sample collection
- Template generation
- Sequencing
- Data analysis - Align or Assemble
◎ short-read NGS (1)
short-read NGS의 경우 보통 생어 시퀀싱에서 쓰이는 fragment보다 짧은 길이의 fragment를 template으로 사용한다. template을 만들기 위해선 우선 DNA를 random 하게 fragmentation 하는데, 이 결과로 생기는 fragment들은 각 strand의 (DNA는 double strand임을 생각!) 끝이 일치하게끔 잘리는 게 아니기 때문에 (sticky-end 상태) 효소를 사용해 길이를 맞춰준다 (blunt-end 상태).
이후 플랫폼마다 유효한 사이즈의 fragment에 대해서 5' end를 phosphorylate 하고, 3' end를 A-tailing 해 T-overhang이 있는 double-stranded adapter와 접합한다.
adapter란 platform-specific synthetic DNA로, 이후 있을 증폭 과정에서 primer가 붙을 수 있는 위치 역할을 한다. adapter는 Y-shaped, 즉 fragment에 연결되는 일부분만 double-strand인 경우가 있는데 (나머지 부분은 상보적이지 않다), 이는 나중에 설명할 paired-end sequencing시에 서로 다른 forward와 backward가 붙을 위치를 제공하기 위함이다. 이렇게 모든 template이 준비되면 이를 library (fragment된 원래의 DNA에 대한 collection) 라 한다. 이 library를 PCR을 통해 증폭시키면 각 template에 대한 cluster가 생기게 되고, 이 cluster들이 시퀀싱을 거치게 된다.
cluster를 만드는 방법은 플랫폼마다 상이한데, 대표적으로는
- bead-based: emulsion PCR로 bead 상에 cluser를 만듦. Thermo Fisher의 SOLiD와 Ion Torrent, Quigen의 GeneReader 등에서 사용.
- solid-state: illumina의 bridge-amplification 방식과 Thermo Fisher의 WildFire에서 사용하는 template walking 방식이 대표적
- DNA nanoball generation: Geijing Genomics Institute (BGI)의 complete genomics technology가 대표적
이 있다.
시퀀싱의 방식에 따라 sequencing by ligation (SBL), sequencing by synthesis (SBS)로 나눌 수 있으며, 이 둘의 차이는 다음 글에서 다루도록 하겠다.
[참고자료]
https://www.ksmcb.or.kr/file/webzine/2014_04_03.pdf
Human Molecular Genetics | Tom Strachan, Andrew P Read | Taylor & Fran
Human Molecular Genetics has been carefully crafted over successive editions to provide an authoritative introduction to the molecular aspects of human
www.taylorfrancis.com
'생명공학' 카테고리의 다른 글
[유전체 데이터 분석 내용 정리] 3-3. short-read NGS (2) (0) | 2021.09.08 |
---|---|
[유전체 데이터 분석 내용 정리] 3-1. Sequencing - Sanger Sequencing (생어 시퀀싱) (0) | 2021.09.07 |
[유전체 데이터 분석 내용 정리] 2. 유전체 데이터 분석 개요 (Genome Data Analysis) (0) | 2021.09.03 |
[유전체 데이터 분석 내용 정리] 1. 생명정보학 (Bioinformatics) (0) | 2021.09.03 |
로그 스케일 (0) | 2021.04.26 |