Vírusazonosítás metagenomokban genomikai nyelvmodellek segítségével
Filyó Bendegúz1, Krizsán Dániel1 és Ligeti Balázs1
1 PPKE ITBK
A metagenomikai mintákból való vírusazonosítás egyre nagyobb figyelmet kap. A metagenomikai adatok egyre könnyebben hozzáférhetőek, azonban jellemzően zajosak, fragmentáltak. Emellett az ismert bakteriális eredetű szekvenciák száma jelentősen meghaladja a vírusokét.
Erre a feladatra léteznek már megoldások, melyek homológiai vagy gépi tanulási megközelítést, vagy a kettő kombinációját alkalmazzák. Azonban ezen a területen is megjelentek a Nagy Nyelvmodell (LLM) alapú megoldások, amelyek nagy szekvenciahalmazokon előtanítva adatbáziskereséstől független módon, jól skálázhatóan képesek működni. Fontos felmérni ezen új szereplők képességeit a már meglévő megoldásokkal összevetve.
Több LLM-en alapuló Genomikai Nyelvmodellt (ProkBERT, Nucleotide Transformer, DNABERT-2, ViraLM) valamint hét hagyományos eszközt (VirSorter2, Genomad, DeepVirFinder, Seeker, MetaPhinder, PPR-Meta, VIBRANT) vetettünk össze, értékelve azok skálázhatóságát és hatékonyságát. A benchmarkingot valós adatbázisok felhasználásával végeztük, amelyek körülbelül egymillió metagenom szekvenciát tartalmaztak talajból, tengervízből és emberi bélből. Elemeztük az egyes eszközök és megközelítések erősségeit és korlátait.
Összességében tanulmányunk kiemeli ezeknek a megközelítéseknek a számítási hatékonyságát és skálázhatóságát. Az előre betanított Genomikai Nyelvmodellek robusztus, új megoldást jelentenek a vírusok azonosítására.