Veliki jezikovni modeli so že izkazali dobre zmogljivosti pri reševanju takšnih nalog v splošnih domenah. A v kompleksnejših domenah, kjer je pravilna uporaba jezika ključna in zelo specifična, pa se izkaže, da se tudi zelo sposobni modeli izkažejo za nezadostne. To poudarja potrebo po domensko prilagojenih modelih. 

V ta namen so v članku Zaznava protislovij v pravnih besedilih: Priprava korpusa in ekstrakcija nasprotij, objavljenem v zborniku Jezikovna dostopnost pravnih besedil: izzivi, metode in izvedba v praksi, Miha Malenšek, prof. dr. Marko Bajec in izr. prof. dr. Slavko Žitnik s Fakultete za računalništvo in informatiko Univerze v Ljubljani ter prof. dr. Aleš Završnik in Saša Kranjc z Inštitutaza kriminologijo pri Pravni fakulteti Univerze v Ljubljani predstavili največji javno dostopen korpus slovenskega pravnega jezika, ki obsega približno 1 milijardo besednih enot.

Korpus zajema celotno slovensko zakonodajo od leta 1991 do leta 2025, odločbe Ustavnega sodišča Republike Slovenije, vse javno dostopne odločbe rednih sodišč s spletnega mesta SodnaPraksa in odločbe ter pravne akte objavljene v Uradnem listu Republike Slovenije. V celoti korpus zajema 547.799 dokumentov, objavljen pa je v repozitoriju CLARIN.

Na osnovi korpusa so začeli tudi s pripravo slovenskega, pravni domeni prilagojenega jezikovnega modela PravniBERT, ki temelji na arhitekturi ModernBERT, optimizirani za obdelavo daljših besedil. Model trenutno še ni javno dostopen.