Uno de los más grandes problemas que tienen las organizaciones es la calidad de datos. No es suficiente tener la mejora implantación de Business Intelligence, con el mejor diseño de un data warehouse y con la mejor herramienta si el punto de partida inicial no puede ser realmente usado.
Hay diversos factores que inciden en ello (errores humanos, diseño erroneo del modelo de datos, interficies de introducción de datos no controladas,…) y es tema de otro post.
Como siempre antes de ponerme a hablar sobre qué se puede hacer para mejorar la calidad y qué técnicas se usan, debemos definir algunos conceptos.
Data Profiling
Data profiling es el proceso de examinar los datos que existen en las fuentes de origen de una organización y recopilar estadísticas e información sobre los mismos. El propósito de dichas estadísticas es:
- Determinar qué datos pueden ser usados para otros propósitos.
- Conseguir métricas de calidad de datos que incluyen si los datos cumplen los estándares de la organización.
- Reduce el riesgo de integrar información a nuevas aplicaciones dado que conocemos su estado.
- Permite hacer un seguimiento de la calidad de datos.
- Capacidad de entender problemas derivados de los datos en proyectos que hagan uso intensivo de los mismos.
- Tener una visión global de los datos de la organización para desplegar políticas de Data Governance.
Data Cleansing
Data cleansing es el proceso de detectar o descubrir y corregir datos corruptos, incoherentes o erróneos de un conjunto de datos. Después del proceso la información será consistente con otros conjuntos similares de datos. La validación de datos puede ser estricta o mediante el uso de fuzzy logic.
Este proceso permite detectar entradas duplicadas, incompletas,… y establecer reglas para corregirlas. El objetivo no es borrar información perse sino mejorar la calidad de los datos construyendo un proceso de mejora continua.
Data Auditing
Data Auditing es el proceso de gestionar cómo los datos se ajustan a los propósitos definidos por la organización. Se establecen políticas para gestionar los criterios de datos para la organización. No es suficiente con actuar sino que se debe vigilar.
En siguientes entradas, seguiremos profundizando en el tema.