I contenuti protetti dal copyright? Indispensabili per l'IA: Parola di OpenAI
di Alberto Falchi pubblicata il 09 Gennaio 2024, alle 18:01 nel canale dataDato che praticamente qualsiasi contenuto è protetto dal diritto d'autore, sarebbe impossibile avere un'IA senza addestrarla senza contenuti coperti da copyright. Lo sostiene OpenAI e forse non ha tutti i torti. Però...
Mentre l'IA sta rivoluzionando numerosi settori, sempre più realtà (per lo più editori, scrittori e artisti e in generale chi campa grazie al diritto d'autore) si stanno ponendo dubbi sui dati utilizzati per addestrare i modelli. Un tema di non poca importanza, che sta animando anche alcune cause legali, come quella avviata dal NY Times contro OpenAI.
Il punto di vista di OpenAI sotto questo profilo è molto chiaro: l'azienda è disposta a collaborare con imprese e governi per trovare una soluzione alla questione, ma ammette che non sarebbe possibile sviluppare un'IA senza utilizzare dati coperti da copyright.
Il punto di vista di OpenAI
Che l'IA necessiti di contenuti protetti dal diritto d'autore è, secondo OpenAI, un dato di fatto. E lo mette nero su bianco. Non fra i documenti del processo avviato dal NY Times, ma in risposta a un'inchiesta (inquiry) del Communications and Digital Committee del Regno Unito sui rischi e le opportunità dei Large Language Model. La risposta di OpenAI tocca vari temi, è come prevedibile molto ottimista. L'IA nel brevissimo futuro darà un importante contributo alla società, in differenti settori, e avremo LLM sempre più efficienti. Non mancano rischi, si legge nel documento, ma OpenAI sta facendo tutto il possibile per ridurli. E chiede esplicitamente che vengano approvate leggi per regolamentare il settore e garantire uno sviluppo sicuro dell'IA.
Il punto più interessante, però, è quando OpenAI si esprime sul tema del copyright. "Poiché attualmente il copyright copre praticamente ogni tipo di espressione umana, compresi articoli di blog, fotografie, post sui forum, frammenti di codice software e documenti governativi, sarebbe impossibile addestrare i modelli di IA di punta di oggi senza utilizzare materiali protetti da copyright", si legge nel documento.
E tutto quello che è di pubblico domino? Non sarebbe minimamente sufficiente, spiega OpenAI: "limitare i dati di addestramento a libri e disegni nel pubblico dominio creati più di un secolo fa potrebbe generare un interessante esperimento, ma non fornirebbe sistemi di IA che soddisfano le esigenze dei cittadini odierni".
Sotto il profilo tecnico, il ragionamento non fa una piega. Effettivamente, qualsiasi contenuto, anche se liberamente e legalmente accessibile online, è sotto qualche forma protetto dal diritto d'autore. Ovviamente, non si possono copiare allegramente queste informazioni ma la posizione di OpenAI è che a oggi, il suo operato è conforme alle leggi. "Non crediamo che le attuali leggi sul copyright proibiscano di usare questi materiali per l'addesttamento dei modelli", spiegano gli autori del documento. Che riconoscono la necessità di fare maggiori sforzi per supportare chi detiene i diritti. Tanto che hanno integrato strumenti destinati a webmaster e creatori di contenuti per non utilizzare più i loro contenuti per nuovi training dei modelli.
La domanda, però, è come fare con i dati già utilizzati "a sbafo". Vero che le leggi sono oggi inadeguate per affrontare questi problemi, ma da un'azienda che parla di sviluppo etico dell'IA, sarebbe lecito aspettarsi di trovare una soluzione anche al problema dei dati usati per addestrare gli attuali modelli. Anche perché è proprio grazie a questi che ha potuto arrivare fino a questo punto.
14 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoMi starebbe bene cercare un compromesso se offrissero un prodotto open source e il modello addestrato gratis disponibile liberamente, ma invece offrono un servizio a pagamento creato su dati protetti da diritti di autore senza aver ricevuto licenza d uso.
La copyright deve essere abolita o cambiata
Se compro un libro, lo compro per leggerlo, e una volta imparato quel che c'è scritto ho diritto di usare quella conoscenza che ho acquistato. Se leggo una pagina web che ha una copyright, ma è pubblicamente accessibile, nella maggior parte dei casi "pago" perchè sono costretto a vedere le pubblicità che indirettamente costituiscono il pagamento. Se voglio leggere il Corriere della Sera non ho libero accesso alle sue pagine se non mi abbono. L'IA deve poter leggere liberamente tutte le pagine accessibili. Se un sito ritiene che il modello con la pubblicità non le va bene, sia il suo gestore a imporre un login nome utente e password, così l'IA non lo legge.Pretendere di poter pubblicare liberamente qualunque cosa sul web e poi dire che se la leggi non puoi usarla è semplicemente una follia totale.
Oltre a questo, per il bene dell'umanità il sistema di licenze, brevetti e copyright deve essere profondamente cambiato. Oggi in USA si può brevettare praticamente qualunque idea generica, senza produrre nulla che la implementi. Per colpa di questa follia la stampa 3D ha ritardato di 20 anni il suo ingresso nel mercato, ma gli esempi di farabutti che brevettano idee per poi succhiare il sangue a chi le cose le produce veramente sono innumerevoli.
I brevetti e le copyright devono avere un tempo limitato, magari a 5 anni per i software, a 7-10 per le tecnologie elettroniche, a 5/10 anni per le medicine (il cui sviluppo e ricerca costa ed è giusto sia poi retribuito da guadagni), a massimo 10 anni per i libri. Insomma, non è ammissibile la durata attuale dei brevetti, almeno devono esserci regole secondo le quali se brevetti un'idea e non la implementi entro 5 anni perdi ogni diritto e l'idea diventa patrimonio di tutti non più vincolabile. La bestialità del nostro capitalismo zoppo è solo un limite al bene della comunità e un danno per l'umanità.
Per questo quando vedo scrivere assurdità sul fatto che l'IA non deve poter elaborare quel che è liberamente accessibile, sebbene soggetto a copyright, sul web, penso a come sia idiota la nostra società.
Pretendere di poter pubblicare liberamente qualunque cosa sul web e poi dire che se la leggi non puoi usarla è semplicemente una follia totale.
Oltre a questo, per il bene dell'umanità il sistema di licenze, brevetti e copyright deve essere profondamente cambiato. Oggi in USA si può brevettare praticamente qualunque idea generica, senza produrre nulla che la implementi. Per colpa di questa follia la stampa 3D ha ritardato di 20 anni il suo ingresso nel mercato, ma gli esempi di farabutti che brevettano idee per poi succhiare il sangue a chi le cose le produce veramente sono innumerevoli.
I brevetti e le copyright devono avere un tempo limitato, magari a 5 anni per i software, a 7-10 per le tecnologie elettroniche, a 5/10 anni per le medicine (il cui sviluppo e ricerca costa ed è giusto sia poi retribuito da guadagni), a massimo 10 anni per i libri. Insomma, non è ammissibile la durata attuale dei brevetti, almeno devono esserci regole secondo le quali se brevetti un'idea e non la implementi entro 5 anni perdi ogni diritto e l'idea diventa patrimonio di tutti non più vincolabile. La bestialità del nostro capitalismo zoppo è solo un limite al bene della comunità e un danno per l'umanità.
Per questo quando vedo scrivere assurdità sul fatto che l'IA non deve poter elaborare quel che è liberamente accessibile, sebbene soggetto a copyright, sul web, penso a come sia idiota la nostra società.
elaborare è un conto, riutilizzare pari pari è un altro. puoi comprare e leggere il libro ma non puoi riscriverlo in parte pari pari o anche fotocopiarlo e rivenderlo come se fosse tuo e quel poco che riutilizzi lo devi citare come fonte.
il problema attuale di questa pseudo AI non è l'accesso a queste informazioni protette ma come le riporta che è una cosa ben diversa.
Mi starebbe bene cercare un compromesso se offrissero un prodotto open source e il modello addestrato gratis disponibile liberamente, ma invece offrono un servizio a pagamento creato su dati protetti da diritti di autore senza aver ricevuto licenza d uso.
E come farebbero ad aprire il portafoglio se dovessero fornire il servizio totalmente gratis?
Ogni giorno ChatGpt costa 700.000 dollari (ora forse anche di più di infrastrutture.
Per ogni singola richiesta servono potenze computazionali e una quantità di memoria assurda (anche 30Gb per una semplice domanda), cose che nessuno ti regala.
Mi starebbe bene cercare un compromesso se offrissero un prodotto open source e il modello addestrato gratis disponibile liberamente, ma invece offrono un servizio a pagamento creato su dati protetti da diritti di autore senza aver ricevuto licenza d uso.
Il portafogli a chi? A tutto il mondo? E' un argomento spinoso, ma spero per loro che siano preparati, dato che era straovvio che prima o poi questa cosa gli esplodesse in mano.
Ogni giorno ChatGpt costa 700.000 dollari (ora forse anche di più di infrastrutture.
Per ogni singola richiesta servono potenze computazionali e una quantità di memoria assurda (anche 30Gb per una semplice domanda), cose che nessuno ti regala.
Non vedo come sia un mio problema. Da che mondo é mondo i dati coperti da diritto d autore si pagano. Non vedo perché addestrare un modello linguistico dovrebbe contare diversamente dal riprodurre musica ad una festa di compleanno per cui vanno pagati i diritti
Però non confondiamo la questione dei diritti d'autore (giusta di per se) con le porcate puramente italiane che impone la SIAE, che vanno ben oltre.
OpenAI dovrebbe, ad esempio, pagare i diritti a quei giornali da cui prende articoli per addestrare i propri modelli. Non vedo come tutte le scuse arrancate nell'articolo possano avere alcuna rilevanza. I modelli linguistici hanno bisogno di dati, i dati si pagano. Punto. Il fatto che sia difficile o costoso non é un problema mio, é un problema loro. Ripeto io sarei comprensivo se questo fosse un prodotto di ricerca reso poi pubblico a tutta la comunità in maniera gratuita e con solo monetizzazione secondaria (ad es il modello addestrato é aperto, ma offrono un servizio a pagamento per farlo girare senza dover tirare su l infrastruttura necessaria), ma siccome di Open in OpenAI ci sta ben poco e i loro modelli sono tutti blindati, allora non sono affatto comprensivo
Il problema non è tanto l'uso, ma come le ripropongono. In fondo, se una cosa è pubblica, non vedo perché un AI non possa leggerla.
Nel caso del NY la questione non mi è chiara. Essendo una testata con contenuti a pagamento, immagino che OpenAI abbia un abbonamento per accedere a tutti gli articoli. Quindi, avendo già pagato, perché non può usarli per addestrare un'AI?
Per la parte non a pagamento a maggior ragione.
Eh...manco ce ne fossero stati pochi di questi "giustizieri" che negli anni andavano a multare quattro disgraziati perchè al circoletto del paese mettevano le sigle di cartoni animati per le festicciole dei figli di tre o quattro anni.
Ah...tutto per tutelare "gli artisti"....seh...vabbè...per tutelare le loro tasche !
Quel baraccone di ente inutile spero di vederlo chiudere prima di morire.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".