SlideShare a Scribd company logo
차세대 시퀀싱 기술과
개인 유전체 시대의 개막
들어가기에 앞서..
• DNA: 뉴클레오타이드가 중합된 이중나선 구조의 유전물질
• 뉴클레오타이드 = 인산 + 디옥시리보스 + 염기(A,T,G,C)
• DNA 시퀀싱: DNA 내 염기들의 정확한 순서를 결정하는 과
정
• Sanger 시퀀싱 -> 차세대 시퀀싱
차세대 시퀀싱의 특징
• DNA를 잘게 쪼개서 작은 단편서열로 나눈 후 읽는다
• 단편 서열들 다시 정렬하고 조립하는 알고리즘이 중요
Chapter 2의 내용
• 서열 데이터 포맷
• 서열정렬 및 서열조립 알고리즘
• 서열변이의 분석과정 개괄
• 개인 유전체 데이터의 활용
서열 데이터 포맷
• FASTQ: 염기정보와 QV가 하나의 파일에 통합
• CSFATA: 염기정보와 QV가 각각의 파일에 분리
• QV: 서열 정보의 신뢰도 점수
FASTQ
• 서열id|서술>서열id|서술>서열id|서술
• QV는 ASCII 코드를 사용 한 문자로 나타냄
CSFASTA
• AACG = 013(0->AA, 1 -> AC, 3 -> CG)
• 색상코드로 염기서열을 표현
QV
• QV = 10 은 10%의 에러 확률
• QV = 20 은 1%의 에러 확률
• QV = 30 은 0.1%의 에러 확률
• 시퀀싱 장비에 따라 다를 수 있다.
서열정렬 또는 매핑
• 각 단편서열이 참조 유전체의 어디쯤에 있는 지 찾는 과정
• 대부분의 고속 알고리즘은 인덱스을 생성
• 인덱스의 자료구조: 해쉬 테이블 / 서픽스 트리
해쉬 테이블 기발의 서열정리
• Banana의 4-tuple 집합 = {“bana”, “anan”, “nana”}
• 씨앗서열: 위치를 확인하고 싶은 단편서열 == 참조 유전체의
염기서열의 일부분
• “actgact” 가중치가 6인 서열 모형 1110111: “acttact”도 씨앗
서열이 될 수 있다.
• 씨앗서열을 출발점으로 서열정렬을 수행(seed and extend)
서픽스 트리 기반의 서열정렬
• 문자열의 모든 서피스(suffix)를 소유하는 트리구조
program website platform
Aligned Gbp per
CPU day
Maq maq.sourceforge.net Illumina, SOLID ~0.2
Bowtie bowtie-bio.sourceforge.net Illumina ~7
SSAHA2
www.sanger.ac.uk/
resources/software/ssaha2
Illumina, SOLID,
454
~0.5
BWA
bio-bwa.sourceforge.net/
bwa.shtml
Illumina, SOLID,
454
~7
SOAP2
www.sanger.ac.uk/
resources/software/ssaha2
Illumina ~7
단편서열을 위한 서열정렬 도구
SNP와 INDEL 검출
• SNP: 염기서열에서 하나의 염기만 차이를 보이는 유전적 변
화 또는 변이
• INDEL: Insertion or Deletion
• SNP와 INDEL을 검출해보는 것은 개인 유전체 중 변이를 확
인할 때 필수적인 과정
개인 유전체 데이터의 활용
1. 흔한변이의 주석달기와 의학적 해석
2. 희귀변이의 주석달기와 의학적 해석
3. KEGG DISEASE Pathway mapping
4. 약물유전체학
5. 인구집단 유전체 변이 분포 구하기
흔한변이의 주석달기와 의학적 해석
• 한 사람당 300만~400만 개의 변이가 발견된다.
• 흔한변이들, 나이, 성별, 건강상태 등의 정보를 활용해 질병
별 위험률 산출이 가능하다.
희귀변이의 주석달기와 의학적 해석
• case가 적기 때문에 역학적 연구가 어렵다.
• SIFT: 각 변이가 해당 단백질의 기능을 얼마나 손상시킬 지 순수 계산
을 통해 추론한다.
• PolyPhen: SIFT처럼 단백질의 기능 및 구조 변화를 예측하지만 분자
의 물리적 특성과 진화론적 비교분석을 통해 추론한다.
• PhD-SNP: 단백질 서열과 프로필 정보를 기반으로 질병과의 관련 여
부를 판단한다.
• VAAST: 손상 유전자와 발병원인 변이를 추출하는 프로그램. 비코딩
영역의 변이에 대한 점수산출이 가능
KEGG DISEASE Pathway mapping
• 질병 분류: 단일 유전자 질환 / 다중요인 질환 / 감염성질환
• 유전적 흔들림과 환경적 흔들림에 관한 지식을 질병별 정리
• 각 질병에 대한 진단지표, 치료약물, 유전체 바이오마커를 묶
어서 표기한다.
• KEGG DISEASE Pathway map을 활용하면 유전체 변이와
질병의 다양한 요소들을 연관 지어 분석할 수 있다.
NGS(Next-Generation Sequencing) Introduction
약물유전체학
• 유전체 변이와 약물 사이의 상관관계는 급수적으로 증가한
다.
• 제 3장에서 개인 유전체 변이 해석도구인 Interpretome을
사용해보면 상세한 논의를 할 예정
인구집단 유전체 변이 분포 구하기
• 2008년 “1000명 유전체 사업”이 시작.
• 인구집단별 유전체 변이 분포 분석
• 반수체 정보, 변이 대립유전자의 연관불균형 분석

More Related Content

PDF
Sequencing technology 분석 이승배
SEUNG BAE LEE
 
PDF
유전질환과 진단기술 이해(Nipt pgd) 이승배_20130827
SEUNG BAE LEE
 
PDF
Analytics of genomics tech 이승배
SEUNG BAE LEE
 
PDF
Bioinformatics tool & database 20130722 이승배
SEUNG BAE LEE
 
PDF
Ngs cancer panel 이승배
SEUNG BAE LEE
 
PDF
Nipt(non invasive prenatal testing) analytics 이승배
SEUNG BAE LEE
 
PDF
[2014년 5월 20일] 바이오 및 의료산업동향
gilforum
 
PDF
[2014년 5월 20일] 바이오 및 의료산업동향
gilforum
 
Sequencing technology 분석 이승배
SEUNG BAE LEE
 
유전질환과 진단기술 이해(Nipt pgd) 이승배_20130827
SEUNG BAE LEE
 
Analytics of genomics tech 이승배
SEUNG BAE LEE
 
Bioinformatics tool & database 20130722 이승배
SEUNG BAE LEE
 
Ngs cancer panel 이승배
SEUNG BAE LEE
 
Nipt(non invasive prenatal testing) analytics 이승배
SEUNG BAE LEE
 
[2014년 5월 20일] 바이오 및 의료산업동향
gilforum
 
[2014년 5월 20일] 바이오 및 의료산업동향
gilforum
 

What's hot (6)

PDF
유전자 분석시장 개요 및 동향 2013년 4월
민영 김
 
PDF
How to genome
Hong ChangBum
 
PPTX
유전통계학의 오늘과 내일(고려대학교 특강)
Woosung Yang
 
PPT
Final!!!!
다현 박
 
PPTX
생명공학백서
혜지 신
 
PDF
Single-cell RNA sequencing
Jun Kim
 
유전자 분석시장 개요 및 동향 2013년 4월
민영 김
 
How to genome
Hong ChangBum
 
유전통계학의 오늘과 내일(고려대학교 특강)
Woosung Yang
 
Final!!!!
다현 박
 
생명공학백서
혜지 신
 
Single-cell RNA sequencing
Jun Kim
 
Ad

Similar to NGS(Next-Generation Sequencing) Introduction (19)

PPTX
2013_08_30_Bioinformatics1_yes
Eunsil Yoon
 
PDF
Demo chapter3
Hong ChangBum
 
PDF
200523 서울여대 BI 코딩실무 강의 자료
Joohyun Han
 
PDF
전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Woosung Yang
 
PPT
HGP And Computer
Hyungyong Kim
 
PDF
생물학적 해석 도구 실습: DAVID, ArrayXPath, BioLattice
Shin Kim
 
PPT
젠소나1
병윤 진병윤
 
PDF
2025 Insilicogen Company Korean Brochure
Insilico Gen
 
PDF
2023 Insilicogen Company Brochure (kr)
Insilico Gen
 
PDF
인실리코젠 회사소개서 (2022).pdf
ssuser7cf7b4
 
PDF
Insilicogen Company Brochure 2022
ssuser7cf7b4
 
PPTX
Titanic with r
Paul Myeongchan Kim
 
PDF
Insilicogen Company Brochure
Insilico Gen
 
PDF
종 분포 모형 활용방안
Sanghyuk Lee
 
PDF
3.unsupervised learing
Haesun Park
 
PDF
Insilicogen Company Brochure 2020 (Kr)
Insilico Gen
 
PDF
2024 Insilicogen Company Brochure (kr)
Insilico Gen
 
PDF
2024 Insilicogen Company Korean Brochure
Insilico Gen
 
PDF
2024 Insilicogen Company Brochure (kr)
Insilico Gen
 
2013_08_30_Bioinformatics1_yes
Eunsil Yoon
 
Demo chapter3
Hong ChangBum
 
200523 서울여대 BI 코딩실무 강의 자료
Joohyun Han
 
전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Woosung Yang
 
HGP And Computer
Hyungyong Kim
 
생물학적 해석 도구 실습: DAVID, ArrayXPath, BioLattice
Shin Kim
 
젠소나1
병윤 진병윤
 
2025 Insilicogen Company Korean Brochure
Insilico Gen
 
2023 Insilicogen Company Brochure (kr)
Insilico Gen
 
인실리코젠 회사소개서 (2022).pdf
ssuser7cf7b4
 
Insilicogen Company Brochure 2022
ssuser7cf7b4
 
Titanic with r
Paul Myeongchan Kim
 
Insilicogen Company Brochure
Insilico Gen
 
종 분포 모형 활용방안
Sanghyuk Lee
 
3.unsupervised learing
Haesun Park
 
Insilicogen Company Brochure 2020 (Kr)
Insilico Gen
 
2024 Insilicogen Company Brochure (kr)
Insilico Gen
 
2024 Insilicogen Company Korean Brochure
Insilico Gen
 
2024 Insilicogen Company Brochure (kr)
Insilico Gen
 
Ad

More from Shin Kim (7)

PDF
03. HTTPS & Restful
Shin Kim
 
PDF
02. Model in Ruby on Rails
Shin Kim
 
PDF
엷홈페이지의 이해
Shin Kim
 
PDF
엷 인프라 이해하기 & Ionic로 앱 만들기
Shin Kim
 
PDF
Infer hidden relationships from literature by multi level context terms
Shin Kim
 
PDF
Rajo link
Shin Kim
 
PDF
Identifying Gene-Disease Associations
Shin Kim
 
03. HTTPS & Restful
Shin Kim
 
02. Model in Ruby on Rails
Shin Kim
 
엷홈페이지의 이해
Shin Kim
 
엷 인프라 이해하기 & Ionic로 앱 만들기
Shin Kim
 
Infer hidden relationships from literature by multi level context terms
Shin Kim
 
Rajo link
Shin Kim
 
Identifying Gene-Disease Associations
Shin Kim
 

Recently uploaded (8)

PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [아라보아즈] : 아라보아의 장기적 성장을 위한 DDDM 환경 구축
BOAZ Bigdata
 
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [소크라데이터스] : 웨어러블 기기를 활용한 생체 신호 기반 감정 데이터 수집 및 감정 ...
BOAZ Bigdata
 
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [영웅호걸] : Context-Aware Real-time Sentiment based ...
BOAZ Bigdata
 
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GO-DIVA] : Fitbnb : 취향에 딱 맞는 에어비앤비 큐레이션 프로젝트
BOAZ Bigdata
 
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [땡큐쏘아마취] : 소마챗 : Agentic RAG 기반 소아마취 업무지원 챗봇
BOAZ Bigdata
 
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [청진스] : Multi-Label Lung Sound Classification ba...
BOAZ Bigdata
 
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중증외상센터] : 24시간 심전도 Holter 데이터 기반의 소아 PSVT 예측 모델 개발
BOAZ Bigdata
 
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [직행복] : 실시간 로그 처리 기반 추천시스템
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [아라보아즈] : 아라보아의 장기적 성장을 위한 DDDM 환경 구축
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [소크라데이터스] : 웨어러블 기기를 활용한 생체 신호 기반 감정 데이터 수집 및 감정 ...
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [영웅호걸] : Context-Aware Real-time Sentiment based ...
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GO-DIVA] : Fitbnb : 취향에 딱 맞는 에어비앤비 큐레이션 프로젝트
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [땡큐쏘아마취] : 소마챗 : Agentic RAG 기반 소아마취 업무지원 챗봇
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [청진스] : Multi-Label Lung Sound Classification ba...
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중증외상센터] : 24시간 심전도 Holter 데이터 기반의 소아 PSVT 예측 모델 개발
BOAZ Bigdata
 
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [직행복] : 실시간 로그 처리 기반 추천시스템
BOAZ Bigdata
 

NGS(Next-Generation Sequencing) Introduction

  • 1. 차세대 시퀀싱 기술과 개인 유전체 시대의 개막
  • 2. 들어가기에 앞서.. • DNA: 뉴클레오타이드가 중합된 이중나선 구조의 유전물질 • 뉴클레오타이드 = 인산 + 디옥시리보스 + 염기(A,T,G,C) • DNA 시퀀싱: DNA 내 염기들의 정확한 순서를 결정하는 과 정 • Sanger 시퀀싱 -> 차세대 시퀀싱
  • 3. 차세대 시퀀싱의 특징 • DNA를 잘게 쪼개서 작은 단편서열로 나눈 후 읽는다 • 단편 서열들 다시 정렬하고 조립하는 알고리즘이 중요
  • 4. Chapter 2의 내용 • 서열 데이터 포맷 • 서열정렬 및 서열조립 알고리즘 • 서열변이의 분석과정 개괄 • 개인 유전체 데이터의 활용
  • 5. 서열 데이터 포맷 • FASTQ: 염기정보와 QV가 하나의 파일에 통합 • CSFATA: 염기정보와 QV가 각각의 파일에 분리 • QV: 서열 정보의 신뢰도 점수
  • 6. FASTQ • 서열id|서술>서열id|서술>서열id|서술 • QV는 ASCII 코드를 사용 한 문자로 나타냄
  • 7. CSFASTA • AACG = 013(0->AA, 1 -> AC, 3 -> CG) • 색상코드로 염기서열을 표현
  • 8. QV • QV = 10 은 10%의 에러 확률 • QV = 20 은 1%의 에러 확률 • QV = 30 은 0.1%의 에러 확률 • 시퀀싱 장비에 따라 다를 수 있다.
  • 9. 서열정렬 또는 매핑 • 각 단편서열이 참조 유전체의 어디쯤에 있는 지 찾는 과정 • 대부분의 고속 알고리즘은 인덱스을 생성 • 인덱스의 자료구조: 해쉬 테이블 / 서픽스 트리
  • 10. 해쉬 테이블 기발의 서열정리 • Banana의 4-tuple 집합 = {“bana”, “anan”, “nana”} • 씨앗서열: 위치를 확인하고 싶은 단편서열 == 참조 유전체의 염기서열의 일부분 • “actgact” 가중치가 6인 서열 모형 1110111: “acttact”도 씨앗 서열이 될 수 있다. • 씨앗서열을 출발점으로 서열정렬을 수행(seed and extend)
  • 11. 서픽스 트리 기반의 서열정렬 • 문자열의 모든 서피스(suffix)를 소유하는 트리구조
  • 12. program website platform Aligned Gbp per CPU day Maq maq.sourceforge.net Illumina, SOLID ~0.2 Bowtie bowtie-bio.sourceforge.net Illumina ~7 SSAHA2 www.sanger.ac.uk/ resources/software/ssaha2 Illumina, SOLID, 454 ~0.5 BWA bio-bwa.sourceforge.net/ bwa.shtml Illumina, SOLID, 454 ~7 SOAP2 www.sanger.ac.uk/ resources/software/ssaha2 Illumina ~7 단편서열을 위한 서열정렬 도구
  • 13. SNP와 INDEL 검출 • SNP: 염기서열에서 하나의 염기만 차이를 보이는 유전적 변 화 또는 변이 • INDEL: Insertion or Deletion • SNP와 INDEL을 검출해보는 것은 개인 유전체 중 변이를 확 인할 때 필수적인 과정
  • 14. 개인 유전체 데이터의 활용 1. 흔한변이의 주석달기와 의학적 해석 2. 희귀변이의 주석달기와 의학적 해석 3. KEGG DISEASE Pathway mapping 4. 약물유전체학 5. 인구집단 유전체 변이 분포 구하기
  • 15. 흔한변이의 주석달기와 의학적 해석 • 한 사람당 300만~400만 개의 변이가 발견된다. • 흔한변이들, 나이, 성별, 건강상태 등의 정보를 활용해 질병 별 위험률 산출이 가능하다.
  • 16. 희귀변이의 주석달기와 의학적 해석 • case가 적기 때문에 역학적 연구가 어렵다. • SIFT: 각 변이가 해당 단백질의 기능을 얼마나 손상시킬 지 순수 계산 을 통해 추론한다. • PolyPhen: SIFT처럼 단백질의 기능 및 구조 변화를 예측하지만 분자 의 물리적 특성과 진화론적 비교분석을 통해 추론한다. • PhD-SNP: 단백질 서열과 프로필 정보를 기반으로 질병과의 관련 여 부를 판단한다. • VAAST: 손상 유전자와 발병원인 변이를 추출하는 프로그램. 비코딩 영역의 변이에 대한 점수산출이 가능
  • 17. KEGG DISEASE Pathway mapping • 질병 분류: 단일 유전자 질환 / 다중요인 질환 / 감염성질환 • 유전적 흔들림과 환경적 흔들림에 관한 지식을 질병별 정리 • 각 질병에 대한 진단지표, 치료약물, 유전체 바이오마커를 묶 어서 표기한다. • KEGG DISEASE Pathway map을 활용하면 유전체 변이와 질병의 다양한 요소들을 연관 지어 분석할 수 있다.
  • 19. 약물유전체학 • 유전체 변이와 약물 사이의 상관관계는 급수적으로 증가한 다. • 제 3장에서 개인 유전체 변이 해석도구인 Interpretome을 사용해보면 상세한 논의를 할 예정
  • 20. 인구집단 유전체 변이 분포 구하기 • 2008년 “1000명 유전체 사업”이 시작. • 인구집단별 유전체 변이 분포 분석 • 반수체 정보, 변이 대립유전자의 연관불균형 분석