Hegle Pärna: kas keelemudelite arendajad vajavad autorite nõusolekut?

11. veebruar, 2025

Hegle Pärna on Ellex Raidla andmekaitse advokaat, kes on spetsialiseerunud andmekaitsele ja intellektuaalse omandi õigusele.

Möödunud nädalal Justiits- ja Digiministeeriumi pressiteates avaldatu, et Eesti on valmis jagama oma keeleandmestikku väljaspool Eestit tegutsevate keelemudelite arendajatega (s.o tehisaru arendava Metaga), on loonud debati teemal, kas seda tuleks ikka teha. Hetkel on avaandmete teabeväravas kõigile vabalt ja tasuta nii ärilistel kui ka mittetulunduslikel eesmärkidel kasutamiseks antud mitmeid andmeid. Eelduslikult suuremahuliste eestikeelsete tekstikogumite jagamine tekitab aga mitmeid autoriõiguslikke probleeme. Selliste andmete kasutamine on reeglina võimalik üksnes autori nõusolekul ja tasu maksmisel.

Mudelite arendajate jaoks on mudelite treenimiseks vajaminevad andmed väärtuslikud, kuid samas ei taha ka andmete autorid neid tasuta käest ära anda ning nende kasutamiseks ärilisel otstarbel keelemudelite arendamiseks nõusolekut anda. Milliseid võimalusi olemasolev õiguskord aga pakub? Kas mudelite arendajatel on tegelikkuses võimalik ka andmete autorite nõusolekuta keelemudeleid arendada?

Treeningandmete vajalikkus

Keelemudelite treenimisel (sh suurte keelemudelite, ingl large language model) tuleb kasutada hulgaliselt andmeid, millest suur osa on paratamatult kaitstud ka autoriõigusega. Mudelites treenimiseks vajalike andmete kogumisel kasutatakse teksti- ja andmekaevet (ingl text and data mining). Teksti- ja andmekaeve käigus kasutab mudeli arendaja veebilehekülgedel oleva sisu talletamiseks automatiseeritud lahendusi ning selle teostamisel kogutakse treeningandmeteks erinevaid tekste ja andmeid.

Piisav andmehulga suurus tagab mudelite võimekuse ja kvaliteedi. Samuti selle, et mudelid suudaksid väljundina anda piisavalt adekvaatseid vastuseid. Treeningandmete kättesaadavus on seega põhiline probleem, mille taha võib siiani hoogne keelemudelite areng ning innovatsioon takerduda.

Õiguslikud kitsaskohad

Autoriõigusega kaitstud teoste mudeli treeningandmetena kasutamisel teostatakse autorile kuuluvaid isiklikke ja varalisi õigusi. See võib tähendada aga autoriõiguste rikkumist, kui treeningandmete kasutamine toimub seadusliku aluseta. Üks võimalikest alusteks treeningandmete seaduspäraseks kasutamiseks on autori nõusolek. Mudelite treenimisel on lisaks võimalik aga tugineda ka autoriõiguse seaduses sätestatud seaduslikele alustele, mis lubavad kaitstud teoseid kasutada teksti- ja andmekaeve eesmärkidel. Teksti- ja andmekaeve erandeid on seaduses kaks. Teost on teatud tingimuste täitumisel võimalik vabalt kasutada (s.o reprodutseerida) teadusuuringutes teksti- ja andmekaeve eesmärkidel ning ka väljaspool teadusuuringuid.

Kuivõrd teadustöö eesmärgil teksti- ja andmekaeve läbiviimise piiritlemine on mõnevõrra problemaatilisem, siis võib ette tulla olukordasid, kus tegelikkuses ka kommertslikel eesmärkidel arendatava mudeli ning mudeli arendamiseks vajaliku andmekogu loomisel tuginetakse sellele erandile. Samuti võimaldab praegune seadusandlus iseenesest kasutada selle erandi abil loodud mudeleid hiljem ka ärilistel eesmärkidel. Tõsi, kõik see on võimalik üksnes juhtudel, kui puudub otsustav mõju konkreetse (teadus)asutuse üle (st mudeleid arendav ettevõte ei ole otseselt seotud asutusega, kellega koostöös mudelit teadustööks teksti- ja andmekaeve eesmärkidel arendatakse). Seega ei ole seaduses selgesõnaliselt välistatud hilisemat teaduse eesmärgil loodud andmekogu või nende asutuste loodud mudeli ärilisel otstarbel kasutamist selliste ettevõtete poolt, kellel ei ole otsustavat mõju asutuse üle. Seetõttu ei ole võimalik välistada, et mudelite arendajad kasutavad ka oma mudeli arendamiseks teadustöös teksti- ja andmekaeve eesmärkidel arendatud andmekogu.

Just selline tegevus on loonud ka mitmeid erinevaid praktikaid ning soosinud nn “andmepesu”. Näiteks on erinevad erasektori ettevõtted haaranud kinni koostöö võimalustest ülikoolidega, lastes koguda tehisintellekti treenimiseks autoriõigusega kaitstud teoseid. Seejärel kasutavad ettevõtted ülikoolide kogutud teoste abil treenitud tehisintellekte oma äritegevuses. Sellist tegevust võibki käsitleda andmepesuna. Kokkuvõtlikult kasutatakse mudeli loomiseks ära eelnevalt mainitud teksti- ja andmekaeve erandit, mis võimaldab autoriõigusega kaitstud teoste õiguspärast kasutamist teksti- ja andmekaeve eesmärkidel ilma autori nõusolekuta ning autorile tasu maksmata. Sisu poolest vastab see olukorrale, kus pealtnäha juriidiliselt on kõik korrektne.

Esimene märgiline kohtuotsus Euroopas

Läinud aastal tuli Saksamaalt ka esimene oluline kohtuotsus seoses autoriõigusega kaitstud internetisisu reprodutseerimisega tehisintellekti treeningandmetena (vt LAION v Robert Kneschke). Kohus hindas teadustöö eesmärgil teksti- ja andmekaeve erandile tuginemise seaduslikkust. Vaidlus puudutas LAION andmekogu, mis sisaldab hulgaliselt erinevaid internetist kogutud pilte ja tekste ning mida kasutatakse tehisintellekti mudelite treenimiseks. Kohus otsustas, et LAION-i tegevus oli seaduslik, kuna LAION-i andmekogu loojatel on võimalik tugineda teadustöö teksti- ja andmekaeve erandile.

Kohus ei nõustunud muuhulgas vastaspoole väitega, et pelgalt andmekogu loomine ei ole iseenesest seotud teadusliku teadmise omandamisega ega kvalifitseeru seetõttu teaduslikul eesmärgil tehtud reprodutseerimiseks. Kohus leidis, et LAION-i tegevust võib käsitleda mõnes mõttes teadusuuringuna, kuna see on vajalik, et tekitada treeningandmete kogumisega võimalus tulevaste generatsioonide teadmiste loomise jaoks. Kuigi eelnev kohtuotsus otseselt meid ei mõjuta, siis sõltumata sellest on tegemist olulise otsusega, kuivõrd näitab, kuhu suunas ollakse liikumas, eelkõige Euroopas ning teksti- ja andmekaeve eranditele tuginemisel mudelite treenimisel.

Kokkuvõtteks

Ühest küljest pakuvad keelemudelite arendajatele potentsiaalselt jagatavad eestikeelsed andmekogud võimalusi eesti keele ning kultuuri säilimisele, kuid teisalt on põhjendatud ka andmete autorite murekohad, kuivõrd tänased keelemudelid on saavutanud oma võimekuse suuresti tänu olemasolevate andmete ekspluateerimisele ja autoritele kuuluvaid õigusi teostades.

Selge on see, et mudelite arendamine kommertslikel eesmärkidel on võrdlemisi piiratud. Seetõttu on lisaks üldisele eesti keele ja kultuuri säilitamisele oluline ka, et andmete jagamisel või jagamata jätmisel kolmandate riikide arendajatega oleks arvestatud ka jätkuva innovatsiooni arenguga. Vastasel juhul võib tekkida olukord, kus autorid jäävad ilma oma õiglasest tasust, kuid kannatab ka innovatsioon. Vaadates mudelite arendajate praktikaid teistes riikides, siis ei ole välistatud, et arendajad leiavad paratamatult ka teisi võimalusi mudelite seadusega kooskõlas arendamiseks – seda juhul, kui otsustatakse jätta eestikeelsed andmekogud arendajatele jagamata. Seega võivad sisuliselt suurettevõtted, nagu näiteks Meta, saada andmetele ligipääsu ka juhul, kui koostöö kasuks ei otsustata. Andmekogude jagamist puudutavate võimalike variantide kaalumisel ning lõplike otsuste tegemisel tuleks lisaks seetõttu ka eelnevaga arvestada.

Artikkel 11.02.2025 err.ee

Seotud teenused

Andmekaitse, küberturvalisus ja IT õigus