Rätten att träna AI-system på upphovsrättsligt skyddat material på internet
I dagens digitala era har utvecklingen av artificiell intelligens (AI) öppnat upp nya möjligheter och utmaningar för företag. En av de mest omdiskuterade frågorna är rätten att träna AI-modeller på upphovsrättsligt skyddat material som finns tillgängligt på internet.
Fair Use i USA
I USA finns det en rättslig princip kallad "fair use" som tillåter användning av upphovsrättsligt skyddat material utan tillstånd under vissa omständigheter. Fair use bedöms utifrån ett antal faktorer, främst syftet med användningen, typ av upphovsrättsligt verk, mängden och betydelsen av den del som används, samt effekten av användningen på verkets marknadsvärde. Användning som ofta ses som fair use inkluderar utbildning, forskning och nyhetsrapportering. Pågående rättsfall, som det mellan New York Times (NYT) och OpenAI, där NYT har stämt OpenAI för upphovsrättsintrång, kommer förhoppningsvis tydliggöra om träning av AI- modeller på upphovsrättsligt skyddat material kan anses vara fair use enligt amerikanskt praxis.
TDM-undantaget i EU
Inom EU finns ett lagstadgat undantag inom upphovsrätten för s.k. text- och datautvinning, TDM (text and data mining). Med text- och datautvinning avses en automatiserad teknik som används för att analysera text och data i digital form i syfte att generera information. Flertalet AI-bolag använder TDM-undantaget som argument för att de har rätt att träna sina AI- modeller på upphovsrättsligt material tillgängligt på internet.
TDM-undantaget innebär att den som har lovlig tillgång till upphovsrättsligt skyddat material får framställa exemplar av materialet för text- och datautvinningsändamål. Med lovlig tillgång menas fritt tillgängligt material på internet eller material tillgängligt t ex via licens.
I det fall upphovsmannen har förbehållit sig rätten till text- och datautvinning (s.k. opt-out) är TDM-undantaget, inte tillämpligt, eftersom materialet inte längre är fritt tillgängligt. Avseende forskningsorganisationer, allmänna bibliotek och museer, arkiv samt institutioner för film- eller ljudarvet är opt out dock inte möjligt för upphovsmän när det handlar om text- och datautvinning för forskarändamål. Ett exempel på olovlig tillgång till upphovsrättsskyddat innehåll skulle vara om en aktör skrapar eller laddar ner innehåll i strid med en hemsidas användarvillkor, även om innehållet är offentligt synligt. T.ex., i Instagrams användarvillkor står det uttryckligen att man inte får försöka komma åt eller samla in information på otillåtna sätt, och att detta inkluderar att samla in information på ett automatiserat sätt utan deras uttryckliga tillstånd (dvs. ett förbehåll har gjorts). Om någon använder en bot för att skrapa dess data bryter denne mot deras villkor och innehållet skulle därmed ha nåtts på ett olovligt sätt. Det är dock intressant att notera att Instagram, via sina användarvillkor, ger sig själva rätten att använda, modifiera, distribuera eller skapa omarbetade verk av innehåll användare laddar upp på deras hemsida eller app, vilket innebär att de tillåter sig själva rätten att, till exempel, träna sina egna AI-modeller på innehållet (inklusive upphovsrättsskyddat innehåll).
Enligt det lagstadgade TDM-undantaget får exemplaren som text- och datautvinningen har skett på inte behållas längre än vad som är nödvändigt för ändamålet. Exemplaren måste alltså förstöras när det inte längre är nödvändigt att behålla dem för att utföra text- och datautvinning.
Det är idag en intensiv debatt rörande om TDM-undantaget är tillämpligt för träning av AI-modeller eller inte. Kritiker menar till exempel att AI-modeller använder det upphovsrättsligt skyddade materialet på ett sätt som går utöver ren analys och att detta kan leda till konkurrerande kreativa produkter. Dessutom ifrågasätts om kommersiell användning av TDM-undantaget verkligen är förenligt med lagstiftarens intentioner. Ett annat argument emot att TDM-undantaget är relevant vid träning av AI-modeller är att det inte är möjligt att radera den kopia som text- och datautvinningen har gjorts på eftersom den kopian, både hela och delar, finns kvar i AI-modellen.
Kneschke vs. LAION
Ett nyligt rättsfall i Tyskland, Kneschke vs. LAION, behandlade frågan om träning av AI-modeller och möjligheten att basera träningen på TDM-undantaget. Domslutet är överklagat, så sista ordet är ännu inte sagts. Därtill är det ett nationellt domslut, vilket innebär att andra EU- länders domstolar kan komma till andra slutsatser. Dock är TDM-undantaget baserat på ett EU-direktiv, vilket har som mål att harmonisera medlemsländernas upphovsrätt. Detta ger att det är rimligt att anta att de olika nationella domstolarna framöver kan komma att ta inspiration av varandra. Om just detta rättsfall går hela vägen till EU-domstolen får framtiden utvisa, men att det med stor sannolikhet framöver kommer att finnas ett behov av ett tydliggörande av TDM-undantaget från EU-domstolen är rimligt att anta.
Rättsfallet Kneschke vs. LAION avgjordes av Hamburgs regionala domstol och rörde en fotograf som stämde den ideella organisationen LAION för upphovsrättsintrång. Fotografen hävdade att hans bild, som han hade laddat upp till en stockfotosajt, hade använts utan tillstånd i ett dataset som LAION skapade för att träna AI-modeller på. Dessa dataset gjorde LAION senare tillgänglig för andra aktörer att träna AI-modeller på. Domstolen avvisade fotografens krav och fastställde att LAION kunde dra nytta av TDM-undantaget. Domstolen ansåg att LAION kunde ses som en forskningsorganisation och att skapandet av en dataset för att träna AI-modeller kan betraktas som vetenskaplig forskning, eftersom det är ett grundläggande steg för framtida kunskapsgenerering.
Även om domstolen inte behövde fastställa huruvida det allmänna undantaget för text- och datautvinning även var tillgängligt för svaranden, kommenterade domstolen dess möjliga tillämpning. För verk som är tillgängliga online är förbehållet endast effektiv om den görs i "maskinläsbar" form enligt EU-direktivet som fastställer TDM-undantaget. Fotobyråns webbplats, från vilken svarandens foto laddades ner, innehöll en användningsreservation i "naturligt språk" i användarvillkoren. Domstolen ansåg att betydelsen av "maskinläsbar" bör bedömas i ljuset av den teknik som var tillgänglig vid tidpunkten då det upphovsrättsskyddade verket reproducerades. Domstolen föreslog vidare att åtminstone vid tidpunkten för domstolens beslut bör användningsreservationer i naturligt språk betraktas som "maskinläsbara", men lämnade öppet hur denna fråga skulle ha avgjorts vid tidpunkten för svarandens reproduktionshandling vilket skedde under 2021. Domstolen konstaterade att de digitala verktyg som nu används för datainsamling är så pass sofistikerade att det de bör kunna läsa och förstå förbehåll skrivna med naturligt språk och inte endast tekniska begränsningar såsom robots.txt. Medan ”naturligt språk” kan läsas och förstås av människor är kommunicerar robot.txt med automatiserade tekniska system.
Domstolen avvisade argumentet att TDM-undantaget inte skulle gälla för reproduktioner som görs för AI-träning eftersom "AI-web scraping" i slutändan leder till konkurrerande kreativa produkter. Domstolen påpekade att vid tidpunkten för den i det aktuella rättsfallet TDM-relevanta aktiviteten (reproduktion vid skapandet av en dataset), hade någon träning av någon AI-modell ännu inte ägt rum. Därför var kunde den allmänna avsikten att senare låta aktörer att träna på materialet tillgängligt via dataseten inte relevant för den juridiska bedömningen av skapandet av en dataset. Denna slutsats har kritiserats.
GEMA mot OpenAI
Slutligen är det värt att nämna att den tyska upphovsrättsorganisationen GEMA (jfr med STIM i Sverige) nyligen har lämnat in en stämningsansökan mot OpenAI. GEMA hävdar att OpenAI har använt upphovsrättsligt skyddat material tillhörande deras medlemmar utan tillstånd för att träna sina AI-modeller, vilket strider mot gällande upphovsrättslagstiftning. GEMA anser att TDM-undantaget inte är tillämpligt i detta fall av flera skäl. För det första menar GEMA att TDM-undantaget redan från början inte var tillämpligt eftersom organisationen har gjort ett förbehåll av användning på sina medlemmars vägnar. Detta innebär att användningen av upphovsrättsligt skyddade sångtexter för att träna generativa AI-modeller var olaglig i alla fall. För det andra hävdar GEMA att användningen av sångtexter för att träna AI-modeller går utöver vad som är tillåtet enligt TDM-undantaget. De menar att AI-modellen använder materialet på ett sätt som inte bara innebär analys utan också reproduktion och bearbetning av verken, vilket leder till konkurrerande kreativa produkter. Vi på Fondia ser med spänning fram emot att få följa processen mellan GEMA och OpenAI.
AI-förordningen i EU
Den nyligen antagna AI-förordningen i EU kräver att AI-modeller som används inom unionen måste uppfylla förordningens krav, även om leverantören bakom systemet inte är europeisk. Detta innebär att alla AI-system och modeller som används i EU måste följa de regler och standarder som fastställs i förordningen, oavsett var leverantören är baserad. Förordningen fastställer att AI-bolagen ska respektera upphovsrätten. Det innebär att amerikanska bolag som önskar erbjuda AI-system eller modeller inom EU inte kan förlita sig på fair use, i det fall det i USA i kommande domslut fastställs att nämnda bolag just kan basera sig agerande på fair use-undantaget. Istället kommer de vara beroende av om de kan använda sig av TDM-undantaget, eller om det framöver istället kommer att krävas licenser för att använda upphovsrättsligt skyddat material tillgängligt via internet.
Rekommendation
De olika rättsfallen som pågår kommer förhoppningsvis ge vägledning framöver om/hur träning av AI-modeller på upphovsrättsligt skyddat material kan rättfärdigas. Utvecklingen kommer inte att gå baklänges. AI är här för att stanna och det finns därmed ett behov av att hitta ett sätt som i praktiken kan få AI-modellerna att existera tillsammans med en respekt för upphovsrätten utan att utvecklingen stannar av.
I det fall TDM-undantaget inte kan användas som grund för träning av AI-modeller kommer det med stor sannolikhet behöva skapas ett praktiskt genomförbart licensupplägg. Till exempel något liknande med de licensupplägg som STIM och SAMI erbjuder i Sverige och GEMA i Tyskland.
Fondias rekommendation är att samtliga aktörer som inte vill att AI-modeller inte tränar på det material som berörd aktör gör tillgängligt via sin webbsida behöver göra förbehåll (opt-out), i alla fall genom sina användarvillkor på internet för att motverka användning av deras material för text- och datautvinning. Dessutom kan det vara lämpligt att, om möjligt, även använda tekniska lösningar såsom robot.txt för att motverka sådan användning. Även om sådan typer av förbehåll inte ger ett 100 %-igt skydd, vilket tydligt framkommer i ovan blogginlägg, innebär alternativet, dvs inte göra något förbehåll, en större risk.