Bioinformatika sekvenování
Klíčová slova: Interpretace genomických variant, Bioinformatika sekvenování, Genom člověka
Klíčové pojmy: Zkontrolovat kvalitu surových reads před další analýzou, Zarovnat reads na referenční genom a hodnotit mapovací kvalitu, Použít robustní pipeline pro variant calling (např. GATK), Anotovat varianty pomocí VEP/ANNOVAR a přidat frekvence z gnomAD, Filtrovat časté benigní varianty a synonymní změny, Prioritizovat podle HPO fenotypu pacienta, Vizualizovat kandidátní varianty v IGV pro technickou kontrolu, Kombinovat více databází (ClinVar, OMIM, DECIPHER) při interpretaci, Dokumentovat verze referencí a databází použitých při analýze, Sledovat ACMG/AMP doporučení pro standardizovanou klasifikaci
## Úvod
Bioinformatika sekvenování se zabývá zpracováním a analýzou dat získaných z moderních sekvenačních technologií (NGS). Cílem je zjistit, jaké sekvenční varianty se vyskytují v DNA pacienta, posoudit technickou kvalitu dat a připravit podklady pro klinické nebo výzkumné rozhodnutí.
> Definice: Bioinformatické zpracování sekvenačních dat zahrnuje kroky od kontroly kvality surových reads přes zarovnání na referenční genom až po anotaci a filtrování variant.
## Základní kroky bioinformatického zpracování
### 1. Kontrola kvality surových dat
- Hodnotí se kvalita sekvenačních reads, přítomnost adaptérů, distribuce kvality po délce readu a celkové množství dat.
- Nástroje: FastQC, MultiQC.
> Definice: Read je krátký fragment sekvenované nukleové kyseliny vrácený sekvenátorem.
### 2. Zarovnání (alignment)
- Zarovnání reads na referenční genom umožní lokalizovat původní pozici každého fragmentu.
- Nástroje: BWA, Bowtie2.
- Kontrolní metriky: procento zarovnaných reads, duplicity, mapovací kvalita.
### 3. Variant calling
- Identifikace míst, kde se sekvence pacienta liší od referenční sekvence.
- Typy variant: jednonukleotidové substituce (SNV), malé inserce/delece (indely), strukturální varianty (SV).
- Nástroje: GATK, FreeBayes, VarScan.
### 4. Anotace variant
- K variantě se přidávají informace: gen, transkript, typ změny, populační frekvence, klinické záznamy.
- Nástroje/databáze: VEP, ANNOVAR, ClinVar, gnomAD, OMIM.
### 5. Filtrování a prioritizace
- Vyřazení častých benigních variant, synonymních změn, nízkokvalitních nálezů a variant mimo relevantní geny.
- Použití fenotypových informací (HPO) pro cílené filtrování genů spojených s pacientovým projevem.
## Praktické aspekty kvality dat
- Pokrytí (coverage): kolikrát je daná oblast přečtena. Nízké pokrytí může vést k falešně negativním výsledkům.
- Průměrná hloubka čtení: průměrný počet readů pokrývajících pozici.
- Rovnoměrnost pokrytí: zda jsou cílové oblasti pokryty konzistentně.
- Kontrola technických chyb: špatné zarovnání a artefakty sekvenování mohou vytvářet falešně pozitivní nálezy.
> Definice: Pokrytí (coverage) označuje počet readů, které pokrývají konkrétní pozici v genomu.
## Genome browsery a vizualizace
- Genome browser slouží k vizuálnímu prohlížení genomu, genů, transkriptů a variant v kontextu.
- Příklady: UCSC Genome Browser, Ensembl, NCBI Genome Data Viewer, IGV.
- IGV umožňuje zobrazit zarovnané reads a pomáhá ověřit technickou věrohodnost varianty (přítomnost na obou řetězcích, pozice v readech, poměr ref/alt).
> Definice: Genome browser je nástroj pro interaktivní vizualizaci genomických dat v kontextu anotací a readů.
Tabulka: Porovnání vybraných genome browserů
| Nástroj | Hlavní použití | Zobrazení reads | Vhodné pro |
|---|---:|:---:|---|
| UCSC Genome Browser | Bohatá anotace, veřejné stopy | Ne vždy přímo | Průzkum genů a anotací |
| Ensembl | Referenční anotace, transkripty | Omezeně | Genová a transkriptová analýza |
| NCBI GDV | Oficiální zdroje NCBI | Omezeně | Integrace s NCBI databázemi |
| IGV | Lokální zobrazení zarovnaných reads | Ano | Kontrola kvality a technické validace |
## Databáze variant, mutací a chorob
- Žádná databáze není definitivní; interpretace kombinuje více zdrojů.
- Důležité zdroje: ClinVar, OMIM, gnomAD, DECIPHER, LOVD, Orphanet, COSMIC, HGMD.
- ClinVar ukazuje klinické interpretace od různých laboratoří; konflikt v názorech je důležitou informací.
- gnomAD slouží k posouzení populační frekvence variant u obecné populace.
Věděli jste, že ClinVar často obsahuje různé interpretace téže varianty od nezávislých laboratoří, což vyžaduje kritické zhodnocení zdrojů a důkazů?
## Pracovní přístupy v klinické praxi
- Genové panely: cílené sekvenování souboru genů asociovaných s konkrétním fenotypem (např. kardiomyopatie, epilepsie).
- Klinický exom: sekvenování kódujících oblastí s důrazem na relevantní geny pro pacientův stav.
- Celogenomové sekvenování: pokrývá i nekódující oblasti a strukturální varianty; int