Razvoj orodja za demokratizacijo podatkovne analitike

Metode strojnega učenja in umetne inteligence so postale gonilo sprememb v znanosti, inženirstvu in družbi. Računalniški pristopi, ki lahko iz obsežnih podatkovnih zbirk izluščijo zanimive vzorce in oblikujejo napovedne modele, postajajo vseprisotni. A le redki strokovnjaki in še bolj redki laični posamezniki razumejo osnove znanosti o podatkih. Potrebna je demokratizacija strojnega učenja in razvoj načinov, kako lahko komurkoli na konceptualnem nivoju pojasnimo, kaj strojno učenje zmore in kako ga lahko uporabimo. V Laboratoriju za bioinformatiko Fakultete za računalništvo in informatiko Univerze v Ljubljani so v ta namen razvili primerno okolje, računske tehnike in pedagoške pristope. 

V člankih v revijah Nature Communications in Bioinformatics so raziskovalci Fakultete za računalništvo in informatiko Univerze v Ljubljani (raziskovalec dr. Primož Godec, asist. dr. Matjaž Pančur, tehniški sodelavec Aleš Erjavec, asist. Ajda Pretnar, prof. dr. Janez Demšar, asist. dr. Marko Toplak, raziskovalec Jaka Kokošar, raziskovalka Vesna Tanko, asist. Pavlin Gregor Poličar, asist. dr. Lan Žagar, raziskovalec Jan Hartman, prof. dr. Blaž Zupan) in prof. dr. Uroš Petrovič z Biotehniške fakultete Univerze v Ljubljani opisali in predlagali pristop, ki olajša uporabo tehnik strojnega učenja in ga ponudi na voljo domenskim strokovnjakom iz biomedicinskih laboratorijev v namene analize slik (Nature Communications) ali analize izraznih profilov posameznih celic (Bioinformatics). 

Predlagani pristop temelji na okolju Orange, ki ga razvijajo v Laboratoriju za bioinformatiko. Orange uporablja vizualno programiranje, s katerim uporabnik s sestavljanjem osnovnih analitičnih gradnikov določi potek analize. V članku revije Nature Communications so predstavili uporabo tega orodja na štirih različnih zbirkah slik, ki vključujejo celjenja mišjih kosti, razvoja mišjih jajčnih celic, morfogeneze socialne amebe in lokalizacije beljakovin v celicah kvasovk. Pokazali so, da lahko iz zbirk slik v okolju Orange enostavno gradimo natančne modele za napovedovanje fenotipov. 

Drugačnega problema, vendar prav tako s pristopi vizualnega programiranja, so se lotili v članku revije Bioinformatics, kjer so predstavili uporabo okolja Orange za analizo genskih izrazov posameznih celic. Tudi tu je njihov glavni dosežek razbitje problema podatkovne analize na enostavne analitične gradnike, ki jih lahko uporabnik potem kot nekakšne lego kocke zlaga v analitično shemo ter pri tem s kombinacijo grafičnih prikazov, gradnje modelov in interaktivnih raziskovalnih vmesnikov išče zakonitosti v dani množici podatkov. Čeprav se v člankih osredotočajo na domene iz molekularne biologije, je pristop, ki so ga razvili, splošno uporaben v znanosti, industriji in drugje, kjer imamo opravka s podatki. 

Vir: Godec P., Pančur M., Ilenič N., Čopar A., Stražar M., Erjavec A., Pretnar A., Demšar J., Starič A., Toplak M., Žagar L., Hartman J., Wang H., Bellazzi R., Petrovič U., Garagna S., Zuccotti M., Park D., Shaulsky G., Zupan B. (2019). Democratized image analytics by visual programming through integration of deep models and small-scale machine learning, Nature Communications 10(1):4551. doi: 10.1038/s41467-019-12397-x, [COBISS.SI-ID 32755751], IF(2019)=12.1, »multidisciplinary sciences«: 1A1 (Z, A'', A', A1/2). Stražar M., Žagar L., Kokošar J., Tanko V., Erjavec A., Poličar P., Starič A., Demšar J., Shaulsky G., Menon V., Lamire A., Parikh A., and Zupan B. (2019). scOrange – A Tool for Hands-On Training of Concepts from Single Cell Data Analytics, Bioinformatics 35(14):i4-i12, doi: 10.1093/bioinformatics/btz348, [COBISS.SI-ID 1538307523], IF(2019)=5.6, »mathematical & computational biology«: 1A1 (Z, A'', A', A1/2).