Predikcia špecifity bakteriálnych vírusov pomocou analýzy dát z Klebsiella lyzogénov

Výskumníci analyzovali genómy Klebsiella a identifikovali vírusy, ktoré obsahujú depolymerázy, enzýmy rozkladajúce polysacharidy, ktoré tvoria bakteriálne puzdro. Na základe týchto dát vytvorili predikčný model.

Predikcia špecifity bakteriálnych vírusov pomocou analýzy dát z Klebsiella lyzogénov
Zdroj: springernature.com
Nová metóda využíva rozsiahle databázy vírusov infikujúcich baktérie Klebsiella na predpovedanie ich schopnosti napádať konkrétne typy bakteriálnych puzdier. Výsledky by mohli urýchliť vývoj cielenej fágovej terapie.

Výskumný tím najprv stiahol rozsiahly súbor genómov baktérií Klebsiella z databázy NCBI, pričom sa zameral na tie, ktoré mali spoľahlivo určený KL typ (typ puzdra). Získali tak 12 003 genómov. Následným skríningom identifikovali 77 802 profágov (vírusov zabudovaných v bakteriálnom genóme). Po odstránení duplicitných sekvencií ostalo 16 077 unikátnych profágových variantov (vOTU). Ku každému profágu priradili KL typ posledného spoločného predka infikovanej baktérie, čím získali predpokladaný cieľový KL typ pre daný vírus. Výsledkom bola kolekcia 74 302 profágov označených KL typom.

Následne boli v týchto profágoch hľadané sekvencie depolymeráz pomocou troch metód: porovnávaním s experimentálne overenými depolymerázami, pomocou HMM profilov domén asociovaných s enzýmami degradujúcimi polysacharidy a pomocou DepoScope, nástroja strojového učenia. Identifikácia aspoň jednou z metód bola dostačujúca na zaradenie depolymerázy do dátového súboru. Celkovo bolo identifikovaných 19 600 depolymerázových domén, z ktorých bolo 3908 unikátnych. Zaujímavé je, že u 80 % profágov nebola detegovaná žiadna depolymeráza, čo naznačuje ich degradáciu alebo alternatívne spôsoby infekcie. Z 15 230 profágov s aspoň jednou depolymerázou malo ~72 % jednu depolymerázu a ~20 % dve, pričom niektoré mali až 12. Domény depolymeráz vykazovali rôzne štruktúrne usporiadania, najčastejšie pravotočivú β-helisu (69 %) a n-lopatkovú β-vrtuľu (18 %).

Na vytvorenie modelu boli odstránené redundantné profágy z rovnakých bakteriálnych klonov, čím vznikol výsledný dátový súbor 8 871 profágov, každý označený jedným z 128 odlišných KL typov. Distribúcia profágov nebola rovnomerná – ~44 % patrilo do 6 KL typov: KL107, KL64, KL47, KL106, KL17 a KL2.

Komentár redakcie: Táto štúdia predstavuje významný krok vpred v predikcii hostiteľskej špecifity bakteriálnych vírusov. Využitím rozsiahlych dát a pokročilých metód strojového učenia sa podarilo vytvoriť nástroj, ktorý môže urýchliť vývoj fágovej terapie. Budúci výskum by sa mal zamerať na validáciu predikcií in vitro a in vivo a na lepšie pochopenie mechanizmov, ktoré riadia interakcie medzi fágmi a baktériami.

Na predikciu tropizmu depolymeráz boli použité dva prístupy: TropiGAT (založený na grafoch) a TropiSEQ (založený na zhlukovaní sekvencií). TropiGAT reprezentoval depolymerázy pomocou vektorov a agregoval ich pomocou pozornostnej metódy a priemerovania. Pozornostná metóda dosiahla lepšie výsledky. TropiSEQ reprezentoval profágy ako binárne vektory indikujúce prítomnosť alebo neprítomnosť zhlukov depolymerázových domén. Najlepšie výsledky dosiahol klasifikátor Random Forest. Pre zvýšenie presnosti bola použitá kombinovaná stratégia, ktorá integrovala predikcie z oboch modelov. Táto stratégia zlepšila presnosť predikcií.

Účinnosť metód bola overená na rozsiahlych dátach o interakciách medzi fágmi a baktériami. Modely boli porovnané s existujúcou metódou SpikeHunter. Analýza ukázala, že TropiSEQ presnejšie priradzoval depolymerázy s helikálnou štruktúrou k cieľovému KL typu, zatiaľ čo TropiGAT bol schopný predikovať nové asociácie, aj keď depolymeráza nemala homológiu s trénovacími dátami. Štruktúra depolymerázy ovplyvňuje presnosť predikcie. Helikálne depolymerázy boli predikované presnejšie ako n-lopatkové β-vrtule.

Analýza asociácií medzi depolymerázami a KL typmi odhalila, že niektoré depolymerázy môžu mať širokospektrálnu aktivitu, čím sa otvára priestor pre ich terapeutické využitie. Tiež odhalila možnú štruktúrnu podobnosť medzi rôznymi KL typmi.