Automatizált kvantitatív proteomikai adatelemzés integrálása szuperszámítógép-környezetbe
Szepesi-Nagy István1,2, Borosta Roberta1,3, Szabó Zoltán4, Tusnády E. Gábor1,5, Pongor Lőrinc6 és Róna Gergely1,7
1 HUN-REN TTK, Molekuláris Élettudományi Intézet
2 SE Doktori Iskola
3 ELTE TTK Biológia Doktori Iskola
4 SZTE, SzAOK, Orvosi Vegytani Intézet
5 SE Bioinformatika Tanszék
6 HCEMM Rák Genomika és Epigenetika Kutatócsoport
7 Department of Biochemistry and Molecular Pharmacology, NYU Grossman School of Medicine
A nukleotid-repeat expanziós betegségek (NRED) kutatásában a proteogenomikai adatok újraelemzése kulcsfontosságú a molekuláris mechanizmusok mélyebb megértéséhez, azonban a nagyméretű, heterogén tömegspektrometriás (MS) adatok feldolgozása technikailag összetett és erőforrás-igényes feladat. Az eltérő műszerekből, mintavételi protokollokból és elemzési módszerekből származó adatok integrálása komoly kihívást jelent, és jelenleg hiányzik az NRED-re fókuszáló, egységes, reprodukálható feldolgozási keretrendszer. Ennek megoldására kifejlesztettünk egy Nextflow-alapú automatizált pipeline-t, amely a FragPipe proteomikai szoftvert nagy teljesítményű számítási (HPC) környezetbe integrálja (Frag’n’Flow). A rendszer automatizálja a bemeneti manifesztfájlok és workflow-k generálását, letölti és integrálja a referencia proteome adatbázist, kezeli a szoftverfüggőségeket, valamint biztosítja a downstream adatelemzést is. A konténerizált megközelítés révén az elemzések reprodukálhatók, átláthatók és könnyen skálázhatók, így a Frag’n’Flow felhő- és HPC környezetekben egyaránt alkalmazható. Benchmark-eredményeink alapján a pipeline kvantitatív pontossága megfelel a jelenlegi megoldásoknak, miközben jelentősen csökkenti a futásidőt. Három reprezentatív MS adathalmazon (label-free DDA, DIA, TMT) validáltuk, sikeresen reprodukálva a publikált biológiai eredményeket minimális felhasználói beavatkozás mellett. A Frag’n’Flow így megbízható, automatizált és skálázható megoldást kínál a proteomikai adatok újraelemzésére az NRED-k és más komplex betegségek kutatásában.