problemi di qualità dei dati

Se stai leggendo questo, è probabilmente perché stai riscontrando problemi di qualità dei dati in questo momento. Possiamo essere abbastanza fiduciosi su questa presunzione perché, la verità è che molte organizzazioni hanno problemi con i loro dati che impediscono loro di raggiungere i loro obiettivi.

Basta guardare alcune delle figure qui sotto da ZoomInfo che mostrano quanto sia diffuso il problema dei “dati sporchi”:

  • 33% di imprese con più di 100.000 record nel loro database
  • 62% delle organizzazioni si basano sui dati dei potenziali clienti che fino al 40% imprecise
  • 34% delle aziende cambiano nome ogni anno
  • 15% dei conduttori contenuti duplicati dati
  • 7% dei conduttori contenuti e-mail non valido/indirizzi fisici
  • 40% degli obiettivi di business, non a causa di dati inesatti
  • 50% dei budget IT viene speso su dati di riabilitazione
  • Male dati i costi delle imprese USA più di $611bn ogni anno

(Fonte: https://blog.zoominfo.com/the-effect-of-dirty-data-on-roi/)

Quindi almeno non sei solo. La domanda è che cosa si può fare al riguardo? Quali passi si può prendere per migliorare la qualità dei dati, e anche correggere i processi di gestione della qualità dei dati in modo da non soffrire gli stessi problemi più in basso la linea?

I 6 problemi di qualità dei dati più comuni che ostacolano la tua organizzazione

Di seguito sono riportati i problemi di qualità dei dati più comuni che la maggior parte delle organizzazioni sperimenta, quelli che ti impediranno di ottenere il massimo valore dalle tue informazioni:

1) Incompletezza: dove cruciale pezzi di informazioni sono mancanti

2) Imprecisione: tutte le informazioni possono essere ‘presente’ (o i campi di dati compilati), ma potrebbe essere entrato in campo sbagliato, digitato in modo errato, o il campo contiene una spazzatura valore

3) Incoerenza: i dati che devono essere presentate con lo stesso valore / formato è incoerente (ad esempio, utilizzando valute diverse invece che la stessa in tutto)

4) Invalidità: i campi sono completi, ma con dati che non può essere corretto in questo contesto (ad es. “unità disponibili” che mostrano un valore negativo)

5) Ridondanza: dove gli stessi dati vengono inseriti più volte ma espressi in modi leggermente diversi (ad esempio, inserendo la stessa azienda ma con nomi diversi, inserendo il nome di una persona in modi diversi, ecc.)

6) Dati non standard: informazioni immesse utilizzando formati non standard (o formati che non possono essere elaborati dal sistema, ad esempio percentuale anziché %)

Mentre questi problemi di qualità dei dati sono tutt’altro che ideali, sono sufficienti per giustificare lo sforzo di apportare modifiche all’ingrosso al modo in cui la tua organizzazione gestisce i propri dati? Se il business può funzionare ‘adeguatamente’ senza apportare tali modifiche, si dovrebbe solo portare avanti come prima e fare il meglio con quello che hai?

In altre parole, quando dovrebbero essere implementati i processi di qualità dei dati (se non del tutto)?

Quando è necessario implementare misure di qualità dei dati?

In generale, i controlli e le misure di qualità dei dati dovrebbero essere messi in atto quando c’è un’esigenza aziendale e quando è necessario risolvere un problema specifico. E come tutti sappiamo, c’è sempre un’esigenza aziendale in una forma o nell’altra, e c’è sempre qualcosa a cui mirare. Altrimenti, che ci facciamo tutti qui?

Ecco alcuni motivi per cui è probabile che tu sia interessato a migliorare la qualità dei tuoi dati (o dovrebbe esserlo!):

1) i dati è un importante asset strategico, che vi fornirà un vantaggio competitivo se è preciso e utilizzabile

2) che Si desidera prelevare dati da diverse fonti in un unico data warehouse centrale o un deposito, che sarà estremamente difficile (se non impossibile) fare se le informazioni non è standardizzato

3) che Si desidera gestire i vostri dati in modo più efficace

4) Stai pensando di implementare un nuovo sistema o di effettuare una migrazione del sistema, per esempio da un sistema legacy o ERP per un sistema basato su cloud

una Volta che hai identificato il business case per mettere in atto misure di qualità dei dati – o convincere gli altri nella vostra organizzazione della necessità di-allora il processo di gestione della qualità dei dati stesso dovrà essere definito. Ma chi e ‘ il responsabile?

Chi è coinvolto nel processo di gestione della qualità dei dati?

Due tipi di ruolo in particolare sono fondamentali per il successo del processo di qualità dei dati, vale a dire:

Dati steward – sono coinvolti nella profilazione dei dati e la creazione di regole per la standardizzazione di dati e di pulizia

Sviluppatori che collaborano con i dati di amministratori e di giocare un ruolo importante nella progettazione di qualità dei dati regole e il processo di sviluppo

Entrambi questi ruoli hanno bisogno di lavorare insieme a stretto contatto durante il processo di attuazione, dopo che i dati amministratori sono responsabili per il monitoraggio della qualità delle informazioni.

Che cosa costituisce un processo di garanzia / gestione della qualità dei dati?

Il processo stesso include alcune fasi che gli analisti della qualità dei dati e i data steward in particolare dovranno completare, tra cui:

Profilazione dei dati – a questo punto, dovranno esplorare i dati al fine di ottenere una comprensione approfondita e identificare i problemi al loro interno, come quelli delineati in precedenza (incompletezza, imprecisione, ecc.)

Definizione delle metriche-per avere un’idea di quanto siano diffusi i problemi dei dati, stabilendo anche benchmark di qualità dei dati, dovranno registrare metriche come la quantità di dati attualmente completa (% completa), quanto è coerente (% coerente), valido (% valido) e così via.

Correzione dei dati-a questo punto, dopo che i problemi sono stati profilati e confrontati, può iniziare il processo di pulizia delle informazioni e di risoluzione dei problemi.

Tuttavia, apportare modifiche direttamente ai dati presenta ovviamente un rischio se le modifiche suggerite non sono corrette. Ciò porterebbe a una situazione molto disordinata e confusa che è ancora più difficile da risolvere! Pertanto è meglio non apportare modifiche direttamente al database immediatamente.

Invece, le modifiche proposte dovrebbero essere elencate e dettagliate prima di essere passate a un data steward per la revisione, dopo di che saranno approvate o respinte.

Evoluzione delle esigenze di qualità dei dati e delle domande da considerare

Uno degli aspetti inevitabili del lavoro con le informazioni, in particolare quando si tratta di gestione della qualità dei dati, gestione e governance, è che non sarà mai una situazione “unica”.

Invece, le esigenze di qualità dei dati della tua organizzazione cambieranno nel tempo e, di conseguenza, anche le tue regole definite verranno riadattate nel tempo, specialmente quando gli amministratori dei dati acquisiranno una maggiore comprensione dei dati, problemi ricorrenti comuni e come mitigarli.

Inoltre, i dati stessi non si fermano. Le statistiche all’inizio di questo blog mostrano quanto spesso informazioni come nomi di società, indirizzi e indirizzi e-mail cambiano e vengono aggiornate, mentre nuove fonti di dati verranno aggiunte con il passare del tempo, il che significa che la necessità di gestione e governance continuerà.

Grazie alle mutevoli esigenze dell’organizzazione e alla natura mutevole dei dati stessi, dovrai anche farti periodicamente domande per assicurarti che la compiacenza non si insinui e che tu sia proattivo, anziché reattivo.

Ad esempio, questi possono includere quanto segue:

  • La qualità dei tuoi dati sta effettivamente migliorando nel tempo e quindi il processo di gestione dei dati funziona come previsto?
  • Se la qualità non sta migliorando, le regole devono essere aggiornate? Soddisfano le attuali esigenze della tua organizzazione?
  • Se e quando vengono aggiunte nuove origini dati, si applicano ancora le regole di qualità dei dati esistenti o dovranno essere adattate di conseguenza?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg