Podatkovno rudarjenje z zlivanjem mnogoterih podatkovnih virov (Fakulteta za računalništvo in informatiko Univerze v Ljubljani)

Avtorja:Marinka Žitnik, Blaž Zupan

Podatkov danes mrgoli na vseh področjih našega delovanja. Tudi v razvoju antibiotikov, kjer je bil zadnji zares novi antibiotik razvit pred štirimi desetletji. A obstaja ameba, ki je odporna proti patogenim bakterijam. Védenje, kako to počne, bi lahko vodilo k novim načinom zdravljenja. A odkrivanje mehanizmov bakterijske rezistence tudi v amebi terja drage in zamudne poskuse; za odkritje štirih rezistenčnih genov so na Baylor College of Medicine porabili pet let.

Razumevanje mehanizmov in tako tudi prenos v klinično okolje bi lahko pospešili s celovito obravnavo znanja o amebi, kot so obnašanje njenih mutant, genski izrazi, proteinske interakcije, genski pripisi in podatki o boleznih, zdravilih ter stranskih učinkih, upoštevajoč gene drugih organizmov.

Čeprav se ljudje odločamo na osnovi raznolikih, včasih tudi zelo posrednih informacij, računalniških algoritmov, s katerimi bi lahko podobno sklepali iz velikih podatkov, skorajda ni. Raziskovalca sta razvila računski pristop za sklepanje v tako pestrem podatkovnem okolju. Temelji na sočasnem zlivanju podatkovnih matrik, odstranjevanju šuma in iskanju podatkovnih vzorcev. Uporaben je za poljubne probleme v sodobni analizi velikih podatkov. V študiji bakterijske rezistence amebe sta z opisanim računskim pristopom raziskovalca napovedala nove funkcije devetih genov. Kar za osem od njih so napovedi potrdili v sodelujočem laboratoriju. Namesto petih let, potrebnih za odkritje začetnih štirih genov, so za potrditev omenjenih osmih genov potrebovali le mesec dni.

Vir: Žitnik M, Zupan B (2015) Data Fusion by Matrix Factorization, IEEE Transactions on Pattern Analysis & Machine Intelligence, 37(1):41-53.
Žitnik M, Nam EA, Dinh C, Kuspa A, Shaulsky G, Zupan B (2015) Gene prioritization by compressive data fusion and chaining, PLoS Computational Biology, 11(10): e1004552.