
Shadow data, dark data e data sprawl: cosa sono
Ogni organizzazione produce e gestisce una quantità crescente di informazioni, ma non tutti i dati sono sotto controllo. Gli shadow data sono dati presenti all’interno dell’azienda ma non governati dai processi ufficiali: copie di file, esportazioni, archivi temporanei o repository dimenticati.
I dark data sono invece informazioni raccolte e conservate che non vengono più utilizzate, pur continuando a occupare spazio e generare rischio.

Entrambi i fenomeni sono alimentati dal data sprawl, ovvero la proliferazione incontrollata dei dati tra cloud, applicazioni SaaS, file server e piattaforme collaborative. Più i dati si moltiplicano, più diventa difficile sapere dove si trovano, chi vi accede e quale sia il loro livello di sensibilità.
Per comprendere come affrontare questo problema in modo strutturato, è utile prima scoprire cos’è il DSPM.
Perché gli shadow data aumentano il rischio di esposizione
Il principale problema degli shadow data non è la loro esistenza, ma la mancanza di visibilità. Un documento dimenticato contenente dati personali, un file esportato da un gestionale o una cartella condivisa senza controllo possono diventare punti di esposizione dati difficili da individuare.
Esiste una relazione semplice: più copie dei dati vengono create, maggiore diventa la superficie di attacco. Ogni repository aggiuntivo rappresenta un potenziale punto di accesso, con il rischio di data leakage, errori di configurazione o accessi non autorizzati.
Dove si formano gli shadow data
Nella maggior parte delle aziende gli shadow data non nascono in ambienti sconosciuti, ma negli strumenti utilizzati quotidianamente.
Le piattaforme SharePoint e OneDrive accumulano versioni multiple dello stesso documento. I file share aziendali conservano spesso archivi storici mai revisionati. Le applicazioni SaaS generano esportazioni, allegati e copie locali che sfuggono ai processi di governance.
Repository |
Esempio di Shadow data |
Rischio principale |
Sharepoint |
Copie multiple di documenti |
Oversharing |
OneDrive |
File condivisi e dimenticati |
Accessi non controllati |
File share |
Archivi legacy |
Dati non classificati |
SaaS |
Export e allegati |
Perdita di visibilità |
Esempi reali di shadow data in azienda
Gli shadow data possono riguardare qualsiasi funzione aziendale.
In ambito HR, ad esempio, fogli Excel contenenti PII e documenti HR vengono spesso esportati per analisi temporanee e poi dimenticati in cartelle condivise.
Nell’area Legal è frequente trovare copie di contratti salvate in repository differenti rispetto a quelli ufficiali.
In Finance, report con IBAN, dati di pagamento o informazioni fiscali possono essere distribuiti tramite e-mail e successivamente archiviati in posizioni non monitorate.
Il problema non è tanto il singolo documento quanto la perdita di controllo che deriva dalla proliferazione delle copie.
Come individuarli: discovery e classificazione
La prima fase consiste nell’identificare dove si trovano i dati. Per questo motivo la data discovery rappresenta il punto di partenza di qualsiasi programma di riduzione degli shadow data.
Una volta individuati i repository, la classificazione dati permette di comprendere quali informazioni siano realmente sensibili e meritino priorità di intervento.
Per approfondire questo approccio è utile leggere l’articolo dedicato alla data discovery e classificazione automatica, che rappresenta il passaggio fondamentale per recuperare visibilità sul patrimonio informativo aziendale.
Prioritizzare: quali dati bonificare prima
Non tutti gli shadow data hanno lo stesso impatto. Eliminare o mettere in sicurezza ogni singolo file sarebbe inefficiente.
Per questo motivo è necessario applicare criteri di risk scoring, valutando sensibilità del dato, livello di esposizione, numero di utenti coinvolti e criticità del repository.
L’obiettivo è individuare rapidamente i dati a maggior rischio, assegnare un owner e definire una roadmap di intervento sostenibile.
Ridurre shadow data senza bloccare il business
La bonifica non deve tradursi in una riduzione della produttività. Un approccio efficace combina policy di retention, attività di clean up periodico e revisione dei permessi di accesso.
Molto spesso gli shadow data sono strettamente collegati a fenomeni di oversharing e condivisioni eccessive. Per questo motivo la revisione degli accessi rappresenta una fase complementare alla discovery.
L’audit accessi documentali e permessi eccessivi consente infatti di verificare chi può accedere ai dati individuati e ridurre ulteriormente il rischio di esposizione.
Come il DSPM abilita un processo continuo
Le attività di discovery e cleanup producono valore solo se diventano continuative. È qui che il DSPM assume un ruolo centrale.
Attraverso funzionalità di discovery, classificazione, monitoraggio e workflow automatizzati, il DSPM consente di individuare nuovi shadow data man mano che vengono creati, evitando che il problema si ripresenti dopo pochi mesi.
Il continuous monitoring permette inoltre di mantenere aggiornata la visibilità sui dati e sulle relative esposizioni.
Per le organizzazioni che vogliono affrontare il problema in modo strutturato, un assessment DSPM per individuare dati non governati rappresenta il punto di partenza più efficace.
FAQ
Gli shadow data sono dati presenti ma non governati; i dark data sono dati conservati ma non più utilizzati.
SharePoint, OneDrive, file server, cloud storage e applicazioni SaaS.
Sì. Spesso includono PII, documenti HR, contratti e informazioni finanziarie.
Attraverso attività di data discovery e classificazione automatica dei dati.
Perché gli strumenti di AI generativa, come Copilot, si basano sui dati e sui contenuti a cui gli utenti hanno accesso. Se all’interno dell’organizzazione sono presenti shadow data, documenti duplicati o repository non governati, queste informazioni possono essere individuate, elaborate o richiamate dall’AI anche quando non dovrebbero essere utilizzate in quel contesto. Il rischio non è solo l’esposizione di dati sensibili, ma anche la diffusione di informazioni obsolete, non verificate o accessibili a un numero eccessivo di persone. Per questo motivo, prima di adottare soluzioni GenAI su larga scala, è fondamentale avere visibilità sul patrimonio informativo e sui relativi permessi di accesso.
Conclusioni
Shadow data e dark data sono spesso il sintomo di un problema più ampio: la mancanza di visibilità e governance sul patrimonio informativo aziendale. Il percorso più efficace parte dalla discovery, prosegue con la classificazione e continua con audit, remediation e monitoraggio costante.
Prima di avviare un progetto, può essere utile definire una roadmap 30-60-90 giorni per stabilire priorità e obiettivi di miglioramento.
In DSS trovi gli specialisti che possono supportarti nell’individuare dati non governati, ridurre il rischio di esposizione e costruire un processo continuo di data security. Scopri il nostro assessment DSPM e approfondisci tutti i servizi DSS dedicati alla protezione, alla governance e alla resilienza del dato.

