GUARDA QUIhttps://accademiaitalianaprivacy.it/areaprivata/foto/1827/01.jpg

Dettaglio news
Webscraping: furti diffusi di dati


martedì 13 febbraio 2024
di Avv. Gianni Dell'Aiuto



 

Il Garante per la Protezione dei dati Personali (quando deciderà di smettere di farsi definire Garante Privacy forse renderà tutti più consapevoli della materia) ha avviato un’indagine conoscitiva in materia di webscraping. Obiettivo è quello di acquisire quanti più elementi possibile ed anche eventuali proposte operative sulle misure adottate ed adottabili da parte dei gestori di siti e piattaforme, sulla delicata materia della raccolta massiva di dati personali, attraverso tecniche di webscraping, da parte di chi sviluppa sistemi di intelligenza artificiale generativa, per finalità di miglioramento degli algoritmi.


Il web scraping è uno strumento utilizzato per la raccolta dei dati dal web estraendoli tramite software. Sebbene il web scraping possa essere eseguito manualmente da un utente, il termine si riferisce in genere a processi automatizzati e che vengono implementati utilizzando un bot o un web crawler. Si tratta di un sistema mediante il quale dati specifici vengono raccolti e copiati dal Web, in genere in un database locale centrale o in un foglio di calcolo, per il successivo recupero o analisi da parte di veri e propri pirati informatici o aziende senza scrupoli ai fini non solo di profilazione ma, come detto, principalmente ai fini di implementazione degli algoritmi.

I web scraper in genere prelevano un “qualcosa” da una pagina per utilizzarlo per un altro scopo da qualche altra parte. Un esempio, il più semplice ma intuitivo, potrebbe essere trovare e copiare in un elenco nomi e numeri di telefono, aziende e i relativi URL o indirizzi e-mail (contact scraping) e, magari, anche le password di accesso.

Per saperne di più > Web scraping: illegittimo formare elenchi telefonici rastrellando il web
Per saperne di più > Scraping online: sanzione per Facebook. Non ha protetto gli utenti


Oltre al contact scraping, il web scraping viene utilizzato come componente di applicazioni utilizzate per l'indicizzazione del web, il web mining e il data mining, il monitoraggio delle variazioni di prezzo online e il confronto dei prezzi, lo scraping delle recensioni dei prodotti (per monitorare la concorrenza), la raccolta di annunci immobiliari, il meteo monitoraggio dei dati, rilevamento delle modifiche al sito Web, ricerca, monitoraggio della presenza e della reputazione online, mashup Web e integrazione dei dati Web. Insomma, una quantità di usi che possono essere utili a qualsiasi azienda.

Da quanto brevemente esposto emerge come anche questa attività non proprio legale debba essere preventivata al momento della predisposizione di una policy GDPR corretta e completa.


Esistono metodi utilizzati da alcuni siti Web per impedire il web scraping, ad esempio il rilevamento e l'impedimento ai bot di eseguire la scansione (visualizzazione) delle loro pagine. In risposta, esistono sistemi di web scraping che si basano sull'utilizzo di tecniche di analisi DOM, visione artificiale ed elaborazione del linguaggio naturale per simulare la navigazione umana e consentire la raccolta del contenuto della pagina Web per l'analisi offline. Anche in questo caso sembra che il doping sia sempre un passo avanti l’antidoping. Si tratta comunque di un sistema di attacco invasivo e dal quale devono mettersi al riparo tutte le aziende che trattano e conservano nei loro archivi una grande mole di dati.


Nel febbraio 2006, in Danimarca, è stato stabilito che la scansione sistematica, l'indicizzazione e il deep linking da parte del sito portale ofir.dk del sito immobiliare Home.dk non sono in conflitto con la legge danese o con la direttiva sui database dell'Unione Europea, mentre in Francia il 30 aprile 2020, l'autorità per la protezione dei dati (CNIL) ha pubblicato nuove linee guida sul web scraping, chiarendo che i dati disponibili al pubblico sono pur sempre dati personali e non possono essere riutilizzati all'insaputa della persona a cui appartengono tali dati


La decisione del Garante assume quindi importanza anche al fine di una disciplina uniforme della materia.




CONDIVIDI QUESTA PAGINA!