Web scraping: come proteggere il proprio sito web

Web scraping: come proteggere il proprio sito web

La raccolta massiva di dati personali dal web, nota come web scraping, rappresenta una sfida crescente nell’era dell’intelligenza artificiale generativa.

Il web scraping consiste nella raccolta automatizzata di dati pubblicamente disponibili online, e avviene tramite programmi automatizzati. Il fenomeno nasce dall’esigenza di addestrare modelli avanzati di IA come i Large Language Models (LLM), che per il cosiddetto apprendimento necessitano di enormi quantità di dati da analizzare e aggregare. 

Sebbene legittimo in alcune circostanze, come l’indicizzazione da parte dei motori di ricerca, il web scraping può diventare problematico quando include i dati personali degli utenti: in questi casi la raccolta avviene nella violazione del GDPR (Regolamento Generale sulla Protezione dei Dati), che stabilisce che ogni trattamento di dati personali debba avere una base giuridica valida.

Ecco perché il Garante per la protezione dei dati personali ha evidenziato come l’uso di dati raccolti tramite scraping per addestrare modelli di IA richieda una valutazione accurata. 

L’intelligenza artificiale generativa, come ChatGPT o DALL-E, richiede enormi quantità di dati per il proprio addestramento. Spesso, questi dati provengono da operazioni di scraping dirette o indirette (a volte i dati sono presi da archivi o depositi pubblici che li accumulano per sviluppare algoritmi avanzati). La tensione tra innovazione tecnologica e protezione della privacy nasce dal fatto che:

  • I dati sono raccolti senza base giuridica;
  • La raccolta avviene a insaputa degli utenti;
  • Non c’è garanzia sulla reale destinazione d’uso delle informazioni.

Con una recente guida, il Garante privacy italiano ha proposto una serie di misure preventive per ridurre i rischi associati al web scraping. Questi suggerimenti si rivolgono alle aziende e ai proprietari di siti web in generale:

Creazione di aree riservateCreazione di aree riservate
Limitare l’accesso a determinate informazioni richiedendo all’utente di registrarsi può proteggere i dati sensibili, sottraendoli alla raccolta indiscriminata. In questo modo le informazioni non sono più pubbliche ma presuppongono un’autenticazione d’identità per essere visualizzati.
Aggiunta di clausole nei termini di servizioAggiunta di clausole nei termini di servizio
Inserire nei termini di servizio il divieto esplicito di utilizzo di tecniche di scraping sui dati dei propri utenti può rappresentare un deterrente legale. Ad esempio, piattaforme come YouTube proibiscono già l’uso di bot senza autorizzazione esplicita. Sebbene questa sia una soluzione reattiva, può essere efficace anche per perseguire eventuali violazioni.
Monitoraggio del traffico di reteMonitoraggio del traffico di rete
Analizzare le richieste HTTP aiuta a individuare attività sospette, come flussi di dati anomali. Esistono tecnologie in grado di limitare il numero di richieste provenienti da singoli indirizzi IP, riducendo i rischi di scraping su larga scala.
Interventi sui botInterventi sui bot
In ultimo, ricordiamo che l’adozione di CAPTCHA (test visivi che servono a capire se chi sta usando un sito è una persona vera o un bot) o la modifica periodica del codice HTML possono ostacolare l’operatività dei programmi di scraping automatizzati. Un’altra tecnica consiste nell’inserire i dati da proteggere all’interno di immagini o media, rendendone l’estrazione più complessa. Queste misure, però, non garantiscono una protezione totale e possono in alcuni casi penalizzare l’accessibilità per gli utenti legittimi.

Queste prime indicazioni del Garante costituiscono un vademecum per prevenire il problema del web scraping sui propri siti e sistemi aziendali, continuando a proteggere i dati personali e tutelando al tempo stesso il diritto alla libera circolazione delle informazioni.

La crescente diffusione di tecniche di web scraping per addestrare modelli di intelligenza artificiale generativa impone una riflessione approfondita sui diritti digitali e sulla protezione della privacy. Attraverso un uso responsabile della tecnologia e l’adozione di misure preventive, è possibile promuovere un’innovazione che rispetti i principi etici e giuridici, garantendo al contempo la sicurezza dei dati personali.

Leggi anche: Privacy in azienda: l’importanza del Responsabile per la Protezione dei Dati