Tech

OpenAI e la trascrizione di un milione di ore di Video YouTube

Secondo un’inchiesta del New York Times, OpenAI, società leader nel campo dell’intelligenza artificiale, ha trascritto oltre un milione di ore di video YouTube per addestrare il suo modello di intelligenza artificiale GPT-4, considerato uno dei più potenti al mondo. L’operazione, che ha coinvolto anche il presidente di OpenAI Greg Brockman, ha sollevato diverse questioni etiche e legali.

Come ha fatto OpenAI a ottenere i video?

OpenAI ha utilizzato uno strumento di riconoscimento vocale sviluppato internamente, chiamato Whisper, per trascrivere i video. Lo strumento ha permesso di aggirare il divieto di YouTube di utilizzare i suoi video per applicazioni “indipendenti” e di accedervi tramite “qualsiasi mezzo automatizzato (come robot, botnet o scraper)”.

“Whisper è un sistema di riconoscimento vocale automatico (ASR) addestrato su 680.000 ore di dati supervisionati multilingue e multitasking raccolti dal web” – [OpenAI].

Perché OpenAI ha fatto questo?

OpenAI era alla ricerca di grandi quantità di dati per addestrare il suo modello GPT-4. I video di YouTube, con la loro varietà di argomenti e linguaggi, rappresentavano una risorsa preziosa per l’azienda.

Quali sono le implicazioni etiche e legali?

L’utilizzo di materiale altrui senza autorizzazione solleva questioni etiche e legali.

Etica: La pratica di OpenAI potrebbe essere considerata un abuso del lavoro altrui e una violazione del diritto d’autore.
Legale: Non è chiaro se OpenAI abbia violato le leggi sul copyright o altre leggi. La questione è complessa e potrebbe richiedere un’analisi caso per caso.

Qualè è stata la reazione di Google?

Alcuni dipendenti Google erano a conoscenza del fatto che OpenAI stava utilizzando i video di YouTube per estrarre dati, ma non hanno fatto nulla per impedirlo. Anche Google ha utilizzato le trascrizioni dei video di YouTube per addestrare i propri modelli di intelligenza artificiale, una pratica che potrebbe aver violato i diritti dei creatori di contenuti.

Cosa significa questo per il futuro dell’intelligenza artificiale?

Il caso OpenAI evidenzia la necessità di un dibattito pubblico sull’etica e la legalità dell’utilizzo di dati per l’addestramento di modelli di intelligenza artificiale. È importante trovare un equilibrio tra la necessità di sviluppare tecnologie innovative e il rispetto dei diritti e della privacy degli individui.

Considerazioni e possibili sviluppi

Oltre a quanto riportato in questa notizia, ci sono alcuni aspetti che meritano ulteriori approfondimenti:

L’impatto sui creatori di contenuti: La pratica di OpenAI potrebbe danneggiare i creatori di contenuti di YouTube, che potrebbero non ricevere il giusto compenso per il loro lavoro.
La trasparenza: OpenAI e altre aziende di intelligenza artificiale dovrebbero essere più trasparenti su come ottengono i dati per addestrare i loro modelli.
La regolamentazione: È possibile che in futuro vengano introdotte nuove normative per regolare l’utilizzo di dati per l’addestramento di modelli di intelligenza artificiale.

Il caso OpenAI è un esempio significativo di come l’intelligenza artificiale stia ponendo nuove sfide etiche e legali. È importante che la società si interroghi su questi temi e trovi soluzioni adeguate per garantire un futuro responsabile e sostenibile dell’intelligenza artificiale.

Per approfondire: How Tech Giants Cut Corners to Harvest Data for A.I. [NYT].