Qual è la qualità dei rilevatori di IA nella classificazione dei contenuti?

Aggiornato: 2023-07-04
Qual è la qualità dei rilevatori di IA nella classificazione dei contenuti?
Il lancio della versione gratuita di ChatGPT, avvenuto alla fine di novembre 2022, ha generato un certo scalpore online. Numerosi esperti di SEO si sono mostrati entusiasti, immaginando gli infiniti articoli che avrebbero potuto generare. Nel frattempo, alcuni hanno iniziato a chiedersi in che modo Google avrebbe gestito questo tipo di contenuti e se sarebbero stati identificati e "penalizzati" dai motori di ricerca. Di conseguenza, sono nati strumenti per verificare se un testo fosse scritto da un essere umano o generato dall'IA. Ma la domanda che resta è: i loro risultati sono da considerarsi attendibili?
Inizia a guadagnare soldi oggi.
Registrati gratuitamente

La maggior parte degli strumenti di IA per la generazione di contenuti si basa sui modelli linguistici GPT forniti da OpenAI. Pertanto, i modelli che utilizzano per creare contenuti sono in qualche modo simili. Attualmente è possibile creare, migliorare o modificare testi non solo direttamente nell'applicazione ChatGPT, ma anche in documenti notion.so o utilizzando il plugin Grammarly.

Oggi, una quantità sempre maggiore di contenuti pubblicati online è generata da o con l'aiuto dell'intelligenza artificiale. Di conseguenza, stanno emergendo nuovi modi per verificare l'origine dei contenuti: i rilevatori di IA. Abbiamo deciso di indagare sulla loro affidabilità e sul grado di fiducia che possiamo riservargli.

Come funzionano i rilevatori di IA?

Gli strumenti di rilevamento dei contenuti provenienti dall'IA si basano essenzialmente su nuovi modelli linguistici che sono stati addestrati per distinguere tra i testi scritti dagli esseri umani e quelli creati dall'intelligenza artificiale. Questi strumenti determinano le loro valutazioni di probabilità in base alla perplexity (misura della casualità) e alla burstiness (misura della variazione della perplexity) del testo. Gli esseri umani tendono a scrivere con maggiore casualità: ad esempio, spesso intervalliamo frasi più lunghe con altre più brevi e meno complesse. I rilevatori di contenuti di IA identificano queste caratteristiche attraverso l'addestramento su milioni di testi campione, precedentemente classificati come scritti dall'uomo o creati dall'IA.

Mentre i modelli di IA come ChatGPT e altri strumenti basati su GPT possono generare contenuti in diverse lingue, la maggior parte degli strumenti di verifica supporta principalmente l'inglese. Come si fa quindi a verificare i contenuti in altre lingue?

Un metodo è quello di verificare i testi tradotti automaticamente da strumenti come DeepL o Google Translate. È fondamentale ricordare, però, che questo metodo di traduzione impone anche determinati modelli ai testi, in base ai quali vengono tradotti automaticamente, andando a influenzare la valutazione del rilevatore. Tuttavia, alcuni rilevatori sono inclini a verificare contenuti in altre lingue, nonostante il loro supporto ufficiale sia limitato all'inglese.

Inoltre, ciascun rilevatore ha delle limitazioni per quanto riguarda la lunghezza dei contenuti che può verificare, che dipendono dall'utilizzo di una versione gratuita o a pagamento. Inoltre, utilizzano metodi diversi per valutare l'origine dei contenuti; alcuni forniscono una percentuale di probabilità che, a loro giudizio, il testo sia stato generato da una fonte specifica, mentre altri utilizzano valutazioni verbali oppure una scala binaria (sì o no).

Gli strumenti che abbiamo testato

Tra le varie soluzioni disponibili sul mercato, abbiamo analizzato al microscopio i quattro strumenti più diffusi e li abbiamo testati utilizzando un campione di 20 testi. Abbiamo selezionato 10 testi scritti da esseri umani e 10 generati dall'intelligenza artificiale per valutare come questi strumenti li avrebbero classificati.

Nel gruppo di testi scritti con metodi tradizionali, abbiamo incluso articoli scritti interamente da copywriter (alcuni di questi sono stati scritti prima del 2021, il che esclude la partecipazione dell'intelligenza artificiale alla loro stesura), estratti di letteratura (compresi i libri per bambini), articoli di notizie e guide didattiche. I contenuti generati dall'IA includono frammenti di letteratura creati in questo modo, come The Inner Life of an AI: A Memoir by ChatGPT e Bob the Robot, oltre ad articoli prodotti utilizzando l'intelligenza artificiale (compresi quelli già pubblicati online e quelli appena creati da GPT-3.5 e GPT-4). Nel nostro campione di contenuti analizzati abbiamo inserito anche testi in polacco con le relative traduzioni di DeepL e Google Translate. Tutti i test sono stati condotti sugli stessi frammenti di testo e, data la diversità dei metodi di classificazione, abbiamo esaminato i risultati strumento per strumento.

Riportiamo di seguito una raccolta di testi scritti da esseri umani:

Tabella con i risultati della verifica dei testi umani utilizzando i rilevatori di contenuti AI.

e quelli generati dall’intelligenza artificiale:

Tabella con i risultati della verifica dei contenuti generati dall'IA utilizzando i rilevatori di contenuti AI.

L’AI Text Classifier di OpenAI

L'AI Text Classifier di OpenAI (i creatori dei modelli GPT) è lo strumento più diffuso per individuare i contenuti creati dall'intelligenza artificiale. Valuta ed esprime i suoi risultati in termini di probabilità che il testo analizzato sia stato creato dall'intelligenza artificiale. Ciò avviene utilizzando una serie di categorie: "altamente improbabile", "improbabile", "incerto" e "probabilmente generato dall'intelligenza artificiale". Come si può notare, questa scala offre un discreto margine di sfumature. OpenAI stessa fa notare nella descrizione dello strumento che i risultati potrebbero non essere sempre accurati e che il rilevatore potrebbe potenzialmente sbagliare a classificare sia i contenuti creati dall'IA sia quelli scritti da esseri umani. È importante notare che il modello utilizzato per addestrare il classificatore di testi dell'IA non includeva lavori di studenti, quindi non è consigliato per verificare tali contenuti.

Su 10 testi scritti da esseri umani, l'AI Text Classifier ne ha classificati correttamente 9 come "altamente improbabile" o "improbabile" che siano stati creati dall'intelligenza artificiale. Tuttavia, ha più difficoltà a classificare quelli generati dall'intelligenza artificiale. In questo caso, lo strumento classifica spesso il testo come "incerto", "improbabile" o " probabile" che sia stato generato dall'intelligenza artificiale.

Verifica dei contenuti tramite L’AI Text Classifier

Originality.AI

Un altro strumento molto utilizzato per verificare i contenuti creati con l'intelligenza artificiale si chiama Originality. I suoi creatori affermano che ha un tasso di efficacia del 95,93%. È l'unico strumento della nostra lista ad avere un costo, con una tariffa di 0,01 dollari per ogni 100 parole verificate. Il pacchetto minimo costa 20 dollari. Oltre a verificare l'origine dei contenuti, Originality li esamina anche per individuare eventuali plagi.

Un esempio di valutazione del contenuto con Originality

Originality utilizza delle percentuali per esprimere la certezza sulle modalità di creazione del contenuto. Un punteggio del 66% di Originality non significa che il testo sia stato scritto per il 66% da un essere umano e per il 34% dall'intelligenza artificiale, ma bensì che Originality è certa al 66% che il contenuto sia stato creato da un essere umano. Il tool evidenzia in rosso le parti che ritiene siano state generate dall'IA e in verde quelle che è sicuro siano opera umana. È interessante notare come spesso, nei testi classificati come scritti dall'uomo, la maggior parte o almeno la metà del contenuto venga evidenziata in rosso.

In alcuni casi, Originality fatica a classificare in modo univoco i contenuti scritti da un essere umano. Di tutti i frammenti verificati, soltanto uno è stato classificato con il 100% di certezza come scritto da un essere umano. Per i testi restanti, i risultati variano dal 52 al 92% di certezza che il contenuto fosse umano.

Il tool ha svolto un lavoro leggermente migliore nella verifica dei contenuti generati dall'IA; in 7 testi su 10, la certezza che il contenuto fosse generato dall'IA era del 100% o del 99%. I dubbi sono sorti quando si trattava di contenuti generati dall'IA in polacco e poi tradotti in inglese. Benché l'articolo fosse stato generato da uno dei modelli GPT più vecchi (pubblicato su un blog nel settembre 2022) e presentasse diversi errori stilistici, Originality era certa al 92% che la versione polacca fosse stata scritta da un uomo. Ma quando le traduzioni sono proseguite, le stime si sono spostate a favore dell'IA: Originality aveva il 57% di certezza che il contenuto tradotto da DeepL fosse generato dall'IA e l'85% di certezza per la versione di Google Translate.

Il testo che ha dato più problemi a Originality è stato un articolo del popolare sito Bankrate.com, il cui contenuto è generato dall'IA e verificato da esseri umani. Questo è stato l'unico caso in cui lo strumento era sicuro all'88% che l'articolo fosse scritto da un essere umano, anche se in realtà era stato creato con l'aiuto dell'IA. Sembra quindi che la chiave per "ingannare" Originality risieda in un attento editing del testo.

CopyLeaks

La valutazione complessiva del contenuto in CopyLeaks è binaria; i risultati possibili sono "Si tratta di testo umano" e "Rilevato contenuto AI". La verifica dettagliata di segmenti specifici può essere visualizzata solo se si scorre il mouse sul testo. Il tool indica la probabilità che il paragrafo selezionato sia stato scritto da un essere umano o da un'IA.

Un esempio di verifica dei contenuti con Copy Leaks

Su 10 testi scritti da esseri umani, CopyLeaks ha rilevato contenuti generati dall'IA in due di essi. Quando si è trattato di contenuti generati dall'IA, lo strumento li ha valutati in egual misura come creati dall'uomo e dall'IA. Pertanto, i risultati non sono affidabili e potrebbero addirittura essere considerati inutili. È sorprendente quanto CopyLeaks si dimostri "sensibile" alle modifiche. Negli esempi verificati, è bastata una semplice modifica del prompt di input o l'aggiunta del numero del capitolo e delle informazioni sul titolo per cambiare completamente il risultato della valutazione.

Content at Scale - AI DETECTOR

Content at Scale è principalmente uno strumento per la generazione automatica di contenuti, con la funzione di verifica come caratteristica aggiuntiva. I creatori del tool affermano che i testi generati dal loro sistema non sono intercettabili dai rilevatori di IA. Viene spontaneo chiedersi: ma il rilevatore è stato progettato per confermare l'efficacia del generatore?

La società fornisce un esempio di testo generato da Content at Scale sul proprio sito web. Secondo il loro stesso rilevatore, questo testo aveva una probabilità del 95% di essere scritto da un essere umano. In ogni caso, l'AI Text Classifier ha giudicato improbabile che sia opera dell'IA. Originality e CopyLeaks, però, non si sono fatti ingannare così facilmente. Originality ha valutato il testo come generato al 100% dall'IA, mentre CopyLeaks ha rilevato il contenuto dell'IA. Come si può notare, i diversi rilevatori offrono prospettive diverse.

Un esempio di verifica dei contenuti in Copy Leaks

Il rilevatore di Content at Scale si è comportato abbastanza bene nell'individuare i contenuti scritti da un essere umano. Per 9 su 10 dei frammenti verificati, la probabilità che fossero scritti da un essere umano ha superato il 90%.

Tuttavia, ha avuto più difficoltà con i contenuti generati dall'IA; in 6 casi su 10, ha classificato i testi come creati sia da esseri umani che dall'IA. I restanti sono stati classificati erroneamente come scritti da un essere umano.

Ingannare i rilevatori

I contenuti generati dall'IA non appaiono dal nulla. Dietro i prompt che li creano, c'è sempre un essere umano. Quindi, la domanda sorge spontanea: possiamo escogitare dei metodi per ingannare i rilevatori di contenuti di IA e generare contenuti che sfuggono alle loro capacità di rilevazione?

Internet è pieno di trucchi per creare prompt non intercettabili. Uno di questi è quello di spiegare al chatbot i concetti di "perplexity" (perplessità) e "burstiness" (irruenza). L'idea è quella di guidare l'IA nel prendere in considerazione questi fattori quando genera un nuovo testo. Per metterlo alla prova, abbiamo chiesto a un chatbot basato sul modello GPT-4 di redigere un articolo sulle migliori zone di arrampicata nei dintorni di Parigi.

I risultati sono stati interessanti. Abbiamo confrontato il risultato della versione originale del testo e un secondo tentativo, in cui abbiamo chiarito i criteri di valutazione per il chatbot e lo abbiamo guidato su come far sembrare il contenuto più simile a quello umano:

Tabella che riassume i risultati della verifica dei contenuti di un articolo sulle migliori zone di arrampicata nei dintorni di Parigi.

L'unico tool che non è stato ingannato è stato Originality. Tuttavia, in entrambi i casi, siamo riusciti a ingannare l'AI Text Classifier, che ha ritenuto bassa la possibilità che entrambi i contenuti fossero stati generati dall'IA. È interessante notare come Content at Scale e CopyLeaks abbiano cambiato opinione dopo che ChatGPT-4 ha elaborato il testo, prendendo in considerazione le linee guida sulla perplessità e l'irruenza.

Cos'è che rende i rilevatori inaffidabili?

I rilevatori sono progettati per individuare gli elementi prevedibili del contenuto, noti come perplessità. Più bassa è la prevedibilità, maggiore è la possibilità che il testo sia stato scritto in modo tradizionale: da un essere umano. Tuttavia, così come lievi cambiamenti nei prompt inseriti in un chatbot come ChatGPT possono produrre un risultato completamente diverso, anche una piccola modifica nel testo da controllare (che può alterare solo leggermente il suo significato) può cambiare la valutazione data da questi strumenti.

Per esempio, prendiamo il libro per bambini Bob the Robot, che è stato generato per l'80% da un'intelligenza artificiale. L'editore ha attribuito il 20% della creazione all'editing umano del testo. Il segmento che abbiamo verificato in termini di creazione del libro è stato il primo capitolo, composto da 276 parole. Abbiamo verificato essenzialmente lo stesso testo due volte, con una sola piccola modifica: abbiamo aggiunto "Capitolo 1: Star City" prima del contenuto del capitolo. Di conseguenza, Copyleaks.com ha cambiato completamente la sua valutazione sull'origine del libro. Nel testo pulito del capitolo, il tool aveva rilevato un contenuto generato dall'IA, ma lo stesso testo con le informazioni sul numero del capitolo e sul titolo è stato considerato scritto da un essere umano.

Tabella che riassume i risultati della verifica dei contenuti per un estratto del libro "Bob the Robot".

Quindi, come rispondono i rilevatori ai contenuti tradotti? Come esempio, abbiamo utilizzato un contenuto scritto da un copywriter senza l'ausilio dell'intelligenza artificiale. L'articolo era stato scritto in polacco. Anche se alcuni strumenti non supportano questa lingua, cercano comunque di verificarne il contenuto senza segnalare errori. I risultati forniti da originality.ai hanno mostrato il 77% di certezza che il contenuto fosse scritto da un essere umano quando è stato verificato il testo polacco. Lo stesso testo, tradotto con DeepL, ha dato allo strumento solo il 67% di certezza che fosse stato scritto da un essere umano. Questa certezza scende al 36% quando il testo viene tradotto da Google Translate.

Tuttavia, un altro strumento, Copyleaks, che supporta ufficialmente i contenuti in polacco, ha classificato correttamente tutte le versioni. La probabilità che la maggior parte del testo fosse scritto da un essere umano (tenendo presente che il tool valuta separatamente le singole parti del testo) era del 99,9% per la versione polacca, dell'89,8% per la traduzione di DeepL e del 90,2% per la versione di Google Translate. Nonostante le differenze siano minime, è sorprendente notare come la traduzione di Google sia considerata più vicina allo stile di scrittura umano rispetto a DeepL, che è stata classificata in modo opposto da Originality.

In che modo i rilevatori di contenuti generati dall’IA si differenziano dagli esseri umani?

I ricercatori della School of Engineering and Applied Science dell'Università della Pennsylvania hanno studiato il modo in cui gli esseri umani discernono i contenuti generati dall'IA. Siamo in grado di individuare le differenze? E quali fattori consideriamo nella nostra valutazione?

Cosa si considera quando si valutano i contenuti generati dall'intelligenza artificiale?

Per i vari tipi di contenuto, ci concentriamo principalmente sulla rilevanza, che di solito esercita l’influenza maggiore sulla nostra valutazione. All'interno dei contenuti generati dall'IA, rileviamo anche errori derivanti dalla mancanza di buon senso logico, che i tool di IA non possono verificare, e dalla presenza di segmenti contraddittori.

I rilevatori di IA basano le loro valutazioni principalmente sulla prevedibilità e sulla casualità del testo, senza considerare molti altri fattori evidenziati dai partecipanti allo studio. Abbiamo messo alla prova questo aspetto con un articolo creato dall'intelligenza artificiale nel settembre 2022, prima che ChatGPT diventasse un nome noto. L'articolo è, da un lato, pieno di errori stilistici, frasi illogiche e formulazioni sgraziate ma, dall'altro, è effettivamente "originale" e decisamente casuale.

Il testo era originariamente in polacco, quindi abbiamo ripetuto il processo di traduzione automatica tramite DeepL e Google Translate e, per sicurezza, abbiamo anche esaminato il testo originale (si tenga presente che non tutti i tool supportano la lingua polacca, ma ne effettuano la valutazione).

Ecco i risultati:

Tabella che riassume i risultati della verifica dei contenuti per un articolo generato dall'IA in lingua polacca e pubblicato nel settembre 2022.

Come è evidente, Originality.ai ha gestito al meglio il processo di valutazione del testo tradotto, ma i suoi risultati non sono del tutto univoci. Si tenga presente che il processo di traduzione automatica può introdurre un elemento "innaturale" nel contenuto, il che può in parte spiegare la maggiore probabilità che il contenuto venga percepito come generato dall'IA.

Conclusioni

Il paradosso dei tool per il rilevamento dei contenuti di IA è che abbiamo un tale livello di scetticismo sulla qualità dei testi generati dall'IA che abbiamo bisogno di un altro strumento basato sull'IA per rilevarli. Le domande sostanziali che a questo punto dovremmo porci sono: Possiamo determinare con assoluta certezza come sia stato creato un contenuto? Se un articolo è ben scritto e di fatto non contiene errori, ha davvero importanza il modo in cui è stato scritto?

È opinione diffusa che i contenuti creati dall'IA siano di bassa qualità. Alcuni sostengono anche che i siti web saranno "penalizzati" per i contenuti generati in questo modo. Tuttavia, Bing e Google si stanno muovendo verso l'utilizzo dell'intelligenza artificiale nei loro motori di ricerca, il che suggerisce che ne comprendono i benefici.

Nessuno di questi tool è infallibile. Durante il nostro esperimento, alcuni sono risultati migliori nella valutazione dei testi scritti da esseri umani, mentre altri hanno prevalso con quelli scritti dall'IA. I risultati per alcuni contenuti variano significativamente da strumento a strumento. Quando abbiamo verificato alcuni estratti selezionati, sapevamo in che modo erano stati creati, ma se avessimo condotto un test del genere alla cieca, i risultati sarebbero stati semplicemente non attendibili. Il problema principale delle valutazioni di questi tool è l'incertezza nel capire quando sono corrette e quando sono sbagliate. Utilizzandole, non sappiamo davvero mai se possiamo fidarci di loro nei casi singoli.

L'articolo che segue è una traduzione dell'articolo polacco "Detektory treści AI - jak radzą sobie z klasyfikacją tekstu?", scritto da Agata Gruszka, International SEO Manager di WhitePress®

I tuoi commenti (0)
I redattori di Whitepress si riservano il diritto di rimuovere i commenti offensivi, che contengono parole volgari o che non siano pertinenti.
Il Responsabile del trattamento dei dati personali delle persone che utilizzano il sito web whitepress. com e tutte le sue sottopagine (di seguito: il Servizio) ai sensi del Regolamento (UE) 2016/679 del Parlamento europeo e del Consiglio, del 27 aprile 2016, relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE (di seguito: GDPR) e collettivamente "WhitePress" Spółka z ograniczoną odpowiedzialnością (Sp. z oo), con sede legale a Bielsko-Biała in ul. Legionów 26/28, iscritta nel Registro degli Imprenditori del Registro Nazionale dei Tribunali tenuto dal Tribunale Distrettuale di Bielsko-Biała, 8ª Divisione Economica del Registro Nazionale dei Tribunali con il numero KRS: 0000651339, NIP: 9372667797, REGON: 243400145 e le altre società del  Gruppo WhitePress  (di seguito insieme: il Responsabile del Trattamento).


Registrandosi alla newsletter, l'Utente accetta di ricevere informazioni commerciali tramite mezzi di comunicazione elettronici, segnatamente l'e-mail, riguardanti il ​​marketing diretto di servizi e prodotti offerti da WhitePress Sp. z oo e dai suoi partner commerciali di fiducia interessati a commercializzare i propri beni o servizi. La base giuridica per il trattamento dei dati personali è il consenso (art. 6 (1) (a) GDPR).


In qualsiasi momento, è possibile revocare il proprio consenso al trattamento dei dati personali per finalità di marketing. Per ulteriori informazioni sul trattamento e sulla base giuridica del trattamento dei propri dati personali da parte di WhitePress Sp. z oo, compresi i propri diritti, è possibile consultare la nostra  Informativa sulla Privacy .
Leggi tutto
  • Non ci sono ancora commenti su questo articolo.
Il Responsabile del trattamento dei dati personali delle persone che utilizzano il sito web whitepress. com e tutte le sue sottopagine (di seguito: il Servizio) ai sensi del Regolamento (UE) 2016/679 del Parlamento europeo e del Consiglio, del 27 aprile 2016, relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE (di seguito: GDPR) e collettivamente "WhitePress" Spółka z ograniczoną odpowiedzialnością (Sp. z oo), con sede legale a Bielsko-Biała in ul. Legionów 26/28, iscritta nel Registro degli Imprenditori del Registro Nazionale dei Tribunali tenuto dal Tribunale Distrettuale di Bielsko-Biała, 8ª Divisione Economica del Registro Nazionale dei Tribunali con il numero KRS: 0000651339, NIP: 9372667797, REGON: 243400145 e le altre società del  Gruppo WhitePress  (di seguito insieme: il Responsabile del Trattamento).


Registrandosi alla newsletter, l'Utente accetta di ricevere informazioni commerciali tramite mezzi di comunicazione elettronici, segnatamente l'e-mail, riguardanti il ​​marketing diretto di servizi e prodotti offerti da WhitePress Sp. z oo e dai suoi partner commerciali di fiducia interessati a commercializzare i propri beni o servizi. La base giuridica per il trattamento dei dati personali è il consenso (art. 6 (1) (a) GDPR). Inviando il modulo, l'utente dichiara di aver letto l'Informativa sulla Privacy.


In qualsiasi momento, è possibile revocare il proprio consenso al trattamento dei dati personali per finalità di marketing. Per ulteriori informazioni sul trattamento e sulla base giuridica del trattamento dei propri dati personali da parte di WhitePress Sp. z oo, compresi i propri diritti, è possibile consultare la nostra  Informativa sulla Privacy .
Leggi tutto
Articoli consigliati