Tuhandete kirjanike autoriõigustega kaitstud teostest on loodud spetsiaalne andmebaas, mida ettevõtted kasutavad oma AI-tööriistade välja arendamiseks, vahendab The Atlantic. Kirjanikes põhjustab see aga suurt meelehärmi.
Menukirjanikud pahased: autoriõigustega kaitstud bestsellereid söödetakse tehisintellektile (1)
Firmad nagu Meta ja Bloomberg kasutavad AI-mudelite arendamisel andmebaasi nimega Books3, kust leiab enam kui 170 000 raamatut. Books3 moodustavad Stephen Kingi, Zadie Smithi, Rachel Cuski, Elena Ferrante ja paljude teiste autorite raamatud, ilma et nende kasutamiseks andmebaasi ehitamisel oleks mingit luba küsitud.
Books3 kasutati näiteks selleks, et luua Metale kuuluv LLaMA, üks paljudest suurtest keelemudelitest (samalaadne keelemudel on näiteks kõigile tuttav ChatGPT), mis loob sisu suurtest tekstihulkadest leitud mustrite põhjal. Sama andmekogu kasutati ka Bloombergi BloombergGPT ning ilmselt enamike AI-mudelite loomisel.
Books3 andmekogusse söödetud teostest moodustavad ühe kolmandiku ilukirjanduslikud ja kaks kolmandikku mitmeilukirjanduslikud raamatud. Selles andmekogus on ka 33 raamatut Margaret Atwoodilt, vähemalt üheksa Haruki Murakamilt, seitse Jonathan Franzenilt, viis Jennifer Eganilt ning viis David Grannilt.
Kirjanikud sellesse aga hästi ei suhtu, et AI-tööriistade loomisel nende tekste põhjana kasutatakse. Seetõttu esitasid eelmisel kuul hagi Sarah Silverman, Richard Kadrey ja Christopher Golden, kelle sõnul nende autoriõigustega kaitstud teoseid kopeeriti ja tarbiti Meta LLaMA arendamisel. Analüüs paljastas, et kõigi kolme autori teosed leiab tõepoolest Books3 andmekogust.
Ka juturoboti ChatGPT loonud ettevõtet OpenAI on süüdistatud oma keelemudeli välja arendamises autoriõigustega kaitstud teostega. 2020. aastal avaldas ettevõte dokumendi, mis viitab internetipõhisele raamatukogule, kust leiab enam kui 300 000 teost.
Books3 loonud arendaja Shawn Presser ütles, et kuigi ta mõistab kirjanike muret, lõi ta õilsalt andmebaasi selleks, et kõik saaksid luua AI-tööriistu.