Avtomatizirana zaznava protislovij v slovenskem pravnem jeziku
Sasun Bughdaryan/Unsplash
Datum objave:
Protislovja v zakonodaji in sodni praksi resno ogrožajo pravno varnost, zmanjšujejo konsistentnost pravnega sistema ter otežujejo zanesljivo in predvidljivo razlago prava. Vzpostavitev sistema, ki bi avtomatsko zaznal potencialne protislovne kandidate, zato pomeni pomemben korak k učinkovitejši pravni analizi in razvoju naprednih pravnih informacijskih sistemov.
Veliki jezikovni modeli so že izkazali dobre zmogljivosti pri reševanju takšnih nalog v splošnih domenah. A v kompleksnejših domenah, kjer je pravilna uporaba jezika ključna in zelo specifična, pa se izkaže, da se tudi zelo sposobni modeli izkažejo za nezadostne. To poudarja potrebo po domensko prilagojenih modelih.
V ta namen so v članku Zaznava protislovij v pravnih besedilih: Priprava korpusa in ekstrakcija nasprotij, objavljenem v zborniku Jezikovna dostopnost pravnih besedil: izzivi, metode in izvedba v praksi, Miha Malenšek, prof. dr. Marko Bajec in izr. prof. dr. Slavko Žitnik s Fakultete za računalništvo in informatiko Univerze v Ljubljani ter prof. dr. Aleš Završnik in Saša Kranjc z Inštitutaza kriminologijo pri Pravni fakulteti Univerze v Ljubljani predstavili največji javno dostopen korpus slovenskega pravnega jezika, ki obsega približno 1 milijardo besednih enot.
Korpus zajema celotno slovensko zakonodajo od leta 1991 do leta 2025, odločbe Ustavnega sodišča Republike Slovenije, vse javno dostopne odločbe rednih sodišč s spletnega mesta SodnaPraksa in odločbe ter pravne akte objavljene v Uradnem listu Republike Slovenije. V celoti korpus zajema 547.799 dokumentov, objavljen pa je v repozitoriju CLARIN.
Na osnovi korpusa so začeli tudi s pripravo slovenskega, pravni domeni prilagojenega jezikovnega modela PravniBERT, ki temelji na arhitekturi ModernBERT, optimizirani za obdelavo daljših besedil. Model trenutno še ni javno dostopen.