Siamo stati nel quartier generale dove Facebook modera i nostri post

Intelligenza artificiale e revisori in carne e ossa lavorano al controllo dei contenuti sul social network, dall’hate speech al terrorismo

Il quartier generale delle moderazioni di Facebook a Londra (foto: Facebook)
Il quartier generale delle moderazioni di Facebook a Londra (foto: Facebook)

LondraFacebook dal suo quartier generale di Londra ha presentato alla stampa europea il suo report su come ha gestito negli ultimi mesi le segnalazioni e gli interventi, sia umani che tramite Ai, in alcune delle aree che destano particolare preoccupazione: gli account falsi e i comportamenti violenti (phishing, scamming, ecc.), il bullismo e le molestie, la propaganda terroristica (tramite le tecnologie di media matching, concentrandosi principalmente su Isis, al-Qaeda e affiliati), gli appelli e le esperienze in-product, come la segnalazione di contenuti inappropriati.

Tra le novità di questo Community Standards Enforcement Report l’aggiunta dei dati relativi a Instagram, di proprietà di Facebook, relativi a nudità infantile e sfruttamento sessuale, beni regolati (medicinali e armi), suicidio e autolesionismo e propaganda terroristica. Ad ogni modo, anche se i metodi applicati sono gli stessi per i due social, è opportuno ricordare che le metriche saranno diverse visto che su Instagram non ci sono link e non è possibile (nativamente nell’app) ricondividere post. Queste due caratteristiche sono i primi veicoli che facilitano la diffusione di contenuto illegale o contrario alle norme interne.

Come lavora Facebook

Gli ingegneri che lavorano nel team della rimozione dei contenuti che violano le community guidelines, al terzo piano di un ex edificio delle Poste in centro a Londra,  hanno spiegato come l’intelligenza artificiale e i moderatori applicano metriche diverse a seconda del tipo di contenuto.

Dando uno sguardo al grafico è evidente come siano molto diverse le violazioni e i comportamenti che la macchina è chiamata a controllare e la percentuale di controlli che possono essere fatti in automatico cambia in base al tipo di violazione.

Per dare un’idea di cosa succede ogni giorno su Facebook, nel solo trimestre luglio-settembre 2019 sono stati individuati 1,7 miliardi di account falsi e 1,9 miliardi di casi di spam con percentuale di lavoro fatto dalle macchine vicino al 100%. I contenuti di hate speech individuati, per esempio, si fermano a 7 milioni ma, vista la loro natura controversa, sono riconosciuti in automatico nel 80% dei casi, che comunque risulta un ottimo miglioramento visto che solo due anni fa erano fermi al 23%. Ovviamente quando si tratta di individuare i casi di hate speech o bullismo, dove molta differenza la fa il contesto in cui si scrive, è più facile incorrere in errori, che possono essere originati sia dalla macchina che dai moderatori dei contenuti. Quando l’errore è identificato, anche grazie ai nuovi processi di appello, la macchina viene aggiornata con le nuove informazioni.

Per minimizzare gli errori il lavoro viene svolto da tre team che si confrontano di continuo: uno che si occupa di scrivere le regole della community, uno di sviluppare la tecnologia e allenare le macchine che andranno a rimuovere i contenuti in violazione e uno fatto dai revisori umani.



In generale, al momento su 10mila post visti su Facebook in media solo 4 sarebbero riusciti a fare capolino sulle bacheche degli utenti violando le linee guida sui contenuti leciti. Questi risultati sono possibili grazie a maggiori investimenti sulla Ai che è in grado di rimuoverli ancor prima che siano visti da qualcuno.

Come funziona il processo

01-Facebook-Content-Enforcement-High-level-Overview

In pratica il contenuto sospetto può essere individuato sia dalla macchina che segnalato da un utente. Nel primo caso viene direttamente eliminato se la probabilità sia in violazione è già altissima, altrimenti può passare da un secondo check del moderatore umano. Può essere fatto appello sia da chi ha segnalato che dall’autore del contenuto. Ogni volta che il contenuto viene rimosso o viene ripubblicato dopo una rimozione, vengono aggiornati tutti i team di cui sopra.

Come allenare la macchina con la marijuana

Un esempio di allenamento dell’intelligenza artificiale è quello che è stato fatto con la marijuana. Per fermare la vendita sul social, oltre alle segnalazioni umane, dal 2014 è iniziato un processo di analisi e miglioramento delle macchine. Dapprima il contenuto sospetto era individuato con le parole chiave. Una volta capito, i venditori usavano parole simili per far poter caricare il contenuto. Poi si è passati al machine learning con foto anche di cose simili alla marijuana, come i broccoli al vapore. Infine la macchina ha iniziato ad analizzare anche il contesto e gli altri oggetti nella foto, per capire meglio di cosa si trattasse.

Il quartier generale delle moderazioni di Facebook a Londra (foto: Facebook)
Il quartier generale delle moderazioni di Facebook a Londra (foto: Facebook)

Come vengono riconosciuti i profili falsi

Mentre il profilo del proprio gatto non è riconosciuto come falso ma piuttosto sarà consigliato di trasformarlo in pagina, i profili falsi vengono cancellati. Trattandosi di milioni di tentativi giornalieri per creare bot e scam per truffe o alimentare la disinformazione online, l’uso delle macchine è fondamentale. Si guarda se siano stati creati molti profili da un solo indirizzo Ip o nello stesso luogo. Si può guardare al tipo di operatore telefonico o a al service provider della email fornita se siano ritenuti affidabili. 

Un errore che può capitare dal lato della macchina è quando si pensa che un teenager sia un bot perché magari ha appena aperto l’account e sta aggiungendo molti amici in pochissimo tempo. Ma quando ci sono dei dubbi Facebook chiede maggiori informazioni all’utente. Un nuovo metodo di cui si parla è quello del selfie dove bisogna inquadrarsi il volto e muoverlo per far vedere che si è un essere umano. Facebook ha garantito che il volto non viene conservato.

Terrorismo

Rispetto al passato in cui gli sforzi di Facebook erano concentrati su Isis e Al Qaeda, ora l’intento è di rimuovere attivamente i contenuti di qualsiasi organizzazione. Se per le prime due i risultati sono superiori al 99%, per le restanti organizzazioni si attestano al 98.5% su Facebook e al 92.2% su Instagram.

Siccome anche i terroristi si evolvono, si tratta di una continua rincorsa tra il social e loro. All’inizio quando si metteva un’immagine o un video terroristico nel database per non farlo più caricare, bastava invertirlo o modificarlo perché la macchina non lo riconoscesse. Per questo si è passati a far individuare alla macchina alcuni punti chiave (fingerprinting) in modo che sia in grado di riconoscere l’immagine in diverse circostanze.

Poiché uno dei limiti per l’allenamento della macchina per l’individuazione di contenuti terroristici è che Facebook non ha molto materiale, la polizia degli Stati Uniti ha fornito dei materiali video di azioni terroristiche da diversi punti di vista in modo da facilitare il training dell’Ai.

Bullismo e aggressioni

Come si diceva, intervenire in modo automatico in questi casi è più difficile perché è necessario conoscere il contesto. Una parolaccia potrebbe avere un significato scherzoso in un caso ed essere offensiva in un altro. Per questo una delle scelte di Facebook è stata quella di dare più strumenti a tutela delle vittime. Da un’indagine infatti alcune hanno confessato che bloccare l’aggressore su Facebook potrebbe avere effetti peggiori e potrebbe tramutarsi in ritorsioni.

Una soluzione appena aggiunta è quella di chiedere all’autore del post offensivo in un messaggio pop up: “Sei sicuro di voler pubblicare questo post? A quanto pare, questa pausa di riflessione, sta avendo buoni risultati anche se è presto per avere dei dati significativi. Su Instagram invece, è stato da poco introdotto “Restrict”. Funziona solo in inglese (ma lo potete provare anche in Italia) e nasconde anche alla vittima i commenti offensivi. Ho fatto un test con la parola as***le ed effettivamente solo io potevo vedere quel commento. In questo modo si mantiene un controllo senza mettere in allerta l’aggressore.

Hate speech

Per quanto riguarda l’hate speech, quest’anno Facebook ha iniziato a rimuovere automaticamente i post invece di mandarli prima al team che si occupa della valutazione del loro contenuto come offensivo. Questo viene fatto per i post che sono identici o molto simili a post che sono stati già rimossi e quindi che erano già stati valutati come hate speech o a post che somigliano molto ad attacchi tipici. Grazie a questa scelta, possibile dopo aver allenato la Ai con centinaia di migliaia di esempi, Facebook è passata a rimuovere automaticamente dal 68% all’80%. Questo miglioramento tecnologico sarà utile in futuro dopo la sentenza della Corte di Giutizia Europea che ha deciso che in caso di diffamazione il social dovrà rimuovere il post diffamatorio originale, quelli identici che saranno stati condivisi così come quelli simili, dalle bacheche di qualsiasi utente, con tutti i problemi che questo potrà comportare.

Le procedure d’appello

Si può fare appello contro una rimozione o una segnalazione fatta in violazione delle community guidelines. Un mito da sfatare è che ogni segnalazione viene analizzata, quanto meno dalla macchina. Non è dunque necessario un attacco collettivo o un minimo di mille per procedere.

Per quanto riguarda l’hate speech, per esempio, nel trimestre luglio-settembre son stati rimossi 7 milioni di contenuti, 1.4 di questi sono stati appellati ma solamente 169 mila sono stati ripristinati.
Altri esempi sono il nudo. Il nudo nell’arte è permesso ma non sempre è riconosciuto dalla macchina. Secondo gli ingegneri in molti dei casi l’appello viene gestito in 24 ore. Vedremo come si evolverà in seguito. Al momento le informazioni condivise con l’autore della presunta violazione non sono molte. Non sembra esserci spazio per aggiungere commenti e contesto fuori da una serie di tipologie di violazione già individuate da Facebook. Il rischio è che sia molto frustrante ricevere una notifica non precisa e vedersi rimosso un contenuto lecito senza neanche sapere bene il perché.

Leggi anche

Potrebbe interessarti anche

loading...

Lascia un commento