Metacore
ANALÝZA NABOHACENÍ FUNKČNÍCH SKUPIN V SOUBORU GENŮ
Dnes již klasická analýza je založena na principu hypergeometrického testu. Mějme nějaký soubor genů, nejčastěji jsou to diferenciálně exprimovamné geny mezi dvěma experimentálními skupinami - to je základní výstup expresní analýzy. Typicky nás zajímá, odpovídají-li diferenciálně exprimované geny některým známým funkčním systémům buňky, jako je např. apoptóza, metabolismus aminokyselin nebo DNA reparace. Výskyt genů funkčních skupin v diferenciálně exprimované skupině však může být zcela náhodný. O signifikantně zvýšeném počtu hovoříme až tehdy, když pravděpodobnost výskytu stejného nebo vyššího počtu genů některé funkční skupiny v náhodně vybrané diferenciálně exprimované skupině je <0.05.
Software Metacore spočítá tuto pravděpodobnost (p-value) pro každou funkční skupinu obsaženou v souboru všech genů na příslušné mikroereji. P-values jsou následně korigovány na mnohočetné testování. Výstupem je excelový soubor, kde jsou jednotlivé funkční skupiny seřazeny podle korigované p-value. Metacore umožňuje provést analýzu s různými typy funkčních skupin. K dispozici jsou: Pathway Maps, Map Folders, Process Networks, Diseases, Diseases (by Biomarkers), Disease Biomarker Networks, Toxicity Networks, Metabolic Networks, Meatbolic Networks (Endogenous).
Signifikantně nabohacené funkční skupiny je možno dodat ve formě obrázku, kde je vizualizován expresní stav jednotlivých prvků této skupiny (obr1).
obr1.
MAPOVÁNÍ EXPRESNÍCH DAT NA NITROBUŇEČNOU INTERAKČNÍ SÍŤ
Metacore obsahuje řadu nástrojů na bázi grafových algoritmů, pomocí nichž je možno zodpovídat různé otázky o provázanosti exprese jednotlivých genů.
Základem Metacore je databáze signalizačních interakcí mezi molekulami uvniř buňky. Budeme-li dále hovořit o interakcích mezi geny, budeme mít na mysli všechny typy fyzických interakcí mezi jejich produkty, které slouží k přenosu signálu uvnitř i vně buňky. Typickým příkladem jsou protein-protein nebo protein-miRNA interakce. Vztah: [transkripční faktor-jím regulovaný gen-produkt tohoto genu] je v metacore vizualizován spojnicí [transkripční faktor-produkt jím regulovaného genu]. Samotný gen je tedy vynechán.
Všechny dále popsané algoritmy pro konstrukci sítí vyžadují jako vstupní data soubor genových symbolů.
Mapování přímých interakcí
Nejjednodušším postupem je nalezení a zobrazení všech známých interakcí v souboru genů. V případě, že tento soubor obsahuje diferenciálně exprimované geny mezi dvěma experimenty, mapování by mělo produkovat oblasti buněčné sítě, které se svou aktivitou významně liší při porovnání mezi těmito experimenty. V případě, že máme pouze jednu experimentální skupinu je možno definovat vstupní soubor jako skupinu genů s expresní hodnotou vyšší než je určitý, vhodně zvolený práh. V tomto případě získáme oblasti maximální aktivity buněčné sítě. Metacore umožňuje výslednou pod-síť uspořádat do vrstev, které odpovídají extracelulárnímu prostoru , buněčné membráně, cytoplazmě a jádru, což významně zvyšuje přehlednost výsledků.
Spolu s obrázkem namapovaných podsítí dodáme excelovský soubor s podrobnou anotací všech prvků těchto podsítí. Je v něm např. popis typu a mechanismu všech interakcí v podsítích, statistické nabohacení procesů a nemocí a mnoho dalšího.
Na následujícím obrázku (obr2) je typický výstup mapování diferenciálně exprimovaných genů na nitrobuněčnou interakční síť.
obr2.
Hledání nejkratších cest
Na počátku definujeme skupinu startovních a cílových genů sítě. Algoritmus nalezne všechny nejkratší orientované cesty vedoucí ze skupiny startovních do skupiny cílových prvků a naopak. Je možno omezit maximální délku produkovaných cest.
Expanze sítě
Tento algoritmus přidá ke vstupní skupině objektů (genů) všechny další objekty, které přímo interagují s některým objektem ve vstupní skupině a rozšířenou skupinu namapuje na interakční síť. Maximální vdálenost přidávaných objektů je možno zvětšit v nastavení algoritmu.
Je známo, že zvýšení aktivity signální dráhy nemusí být doprovázeno zvýšenou expresí všech signálních proteinů v této dráze. Jako příklad si můžeme představit situaci, kde zvýšení exprese aktivátoru kinázy, způsobí aktivaci signální kaskády, která zesílí a přenese signál do jádra pouze mechanizmem sekvenční fosforylace jejích členů. Konečným výstupem této aktivace může být zvýšená exprese cílového genu. Kdybychom konstruovali síť tak, že jednoduše nalezneme interakce mezi diferenciálně exprimovanými geny, tato signální kaskáda by ve výsledku netvořila spojitou cestu. A to proto, že diferenciálně exprimovaný je v naší modelové situaci pouze aktivátor kinázy a cílový gen mezi kterými neexistuje přímá interakce. Expanzí sítě umožníme aby signální kaskády tohoto typu byly ve výsledku propojeny. "Expresní nespojitost" signální cesty může být způsobena i náhodnou chybou měření v mikroerejovém experimentu.
Hledání aktivních signálních cest
Tento algoritmus specifickým způsobem řeší problém expresní nespojitosti uvedený v předchozím odstavci. Vstupem je opět libovolný soubor genů, např. soubor diferenciálně exprimovaných genů nebo genů s nejvyšší expresí. Algoritmus nejprve nelezne všechny objekty s anotací Receptor, které mají alespoň jeden ligand ve vstupním souboru, dále nalezne všechny transkripční faktory, které regulují expresi alespoň jednoho genu ve vstupním souboru, označme je: TF-list. (Nalezené receptory a transkripční faktory v TF-listu můžou, ale nemusí být součástí vstupního souboru). Dalším krokem je nalezení všech nejkratších cest vedoucích od nalezených receptorů k transkripčním faktorům v TF-listu. Výsledek je zobrazen zvlášť pro každý receptor, kde jsou zobrazeny všechny nejkratší cety vedoucí od daného receptoru k transkripčním faktorům v TF-listu nebo zvlášť pro každý transkripční faktor v TF-listu, kde jsou zobrazeny všechny nejkratší cesty vedoucí od receptorů k danému transkripčnímu faktoru v TF listu.
Tento algoritmus předpokládá, že k identifikaci signální cesty, která vysvětluje změnu exprese nějakého genu postačuje pouze změněná exprese ligandu receptoru na počátku cesty, která vede k tomuto genu. To je jistě velmi zjednodušený předpoklad a výsledky je potřeba chápat jako poměrně hrubý filtr a dále je zkoumat.
Na následujícím obrázku (obr3), jsou dvě ukázky možného výstupu algoritmu. Vstupním souborem byly v tomto případě diferenciálně exprimované geny. Všechny objekty vstupního souboru jsou na obrázcích opatřeny kolečkem, které vyjadřuje hodnotu log fold change - červené kolečno znamená zvýšenou expresi, modré kolečko sníženou expresi proti kontrole. Dále zelená šipka znamená aktivaci. Na obr3a vidíme, že ligand Activin B má zvýšenou expresi a stejně tak cílový transkripční faktor SMAD1 má zvýšenou expresi. Expresní stav této cesty je konzistentní s hypotézou, že Activin B zvyšuje expresi SMAD1 vzhledem ke kontolním vzorkům. Na obr3b je další cesta nalezená stejným algoritmem. Snížená exprese BMP10 nevysvětluje zvýšení exprese SMAD1. Takovou cestu musíme zavrhnout jako nerelevantní pro vysvětlení zvýšené exprese SMAD1. (Pozorované expresní změny na obr3b by byly konzistentní s hypotézou, že snížená exprese BMP10 zvyšuje expresi SMAD1 vzhledem ke kontrolám pouze v případě, kdyby interakce receptoru BMPR1B se SMAD1 nebo s BMP10 byla inhibiční, tj. měla by červenou barvu)
obr3.
Hledání autoregulací
Tento algoritmus je oslabenou verzí předchozího algoritmu pro hledání aktivních signálních cest. V prvním kroce jsou opět nalezeny všechny transkripční faktory, které regulují alespoň jeden gen ve vstupním souboru. Následně jsou nalezeny všechny nejkratší cesty vedoucí od objektů ve vstupním souboru, k těmto transkripčním faktorům. Algoritmus tedy hledá regulace, které začínají i končí ve vstupním souboru.
J.G.