Archivo

Artículos etiquetados y‘ETL’

Evolución de los procesos ETL

21 Junio 2009 Josep Curto 10 comentarios

Hace unos años cuando hablabamos de ETL sólo nos referíamos a lo siguiente:

  • Procesos de extracción de datos.
  • Procesos de transformación de datos.
  • Procesos de carga de datos.
  • Gestión de metadatos.
  • Servicios de administración y operacionales.

Actualmente es necesario hablar de integración de datos (Data Integration) como evolución de los procesos ETL y bajo este paraguas tenemos:

  • Servicios de acceso a datos.
  • Data profiling.
  • Data Quality.
  • Procesado de datos operacionales.
  • Servicios de transformación: CDC, SCD, Validación, Agregación.
  • Acceso en tiempo real.
  • ETL
  • EII.
  • EAI.
  • Transporte de datos.
  • Gestión de metadatos.
  • Servicios de entrega.

En posteriores posts hablaremos de algunos de los aspectos que conformas la visión actual de la integración de datos. Y ahora en vuestras organizaciones: ¿cocéis o enriqueceis los datos?

Comparando soluciones ETL Open Source y comerciales

4 Noviembre 2008 Josep Curto Deja un comentario

He publicado un nuevo artículo para BeyeNETWORK™.

BeyeNETWORK

Os dejo el enlace: Comparando soluciones ETL Open Source y comerciales.

Sobre la estrategia en la integración de datos

Vuelvo a un tema recurrente en este blog: la integración de datos. Ante la situación de un proyecto de esta índole es conveniente tener en cuenta que es preciso definir una estrategia clara y precisa. Y claro en esa estrategia hay unas variables comunes a tener en cuenta:

  • Tipo de datos: ¿existen datos estructurados, semiestructurados o no estructurados? Es necesario conocer su naturaleza.
  • Tipo de organización de los datos de origen: ¿existe homogeneidad o heterogeneidad? ¿Existe dispersión de entornos?
  • Tipo de escala: ¿cuántas fuentes de origen existen? ¿qué volumetría? ¿qué volatilidad?
  • Tipo de necesidad: ¿limpieza? ¿reestructuración? ¿reconciliación? ¿agregación?
  • Frecuencia en el destino: ¿real time? ¿near real time? ¿marco de tiempo concreto?
  • Acceso en el destino: ¿lectura? ¿lectura y escritura?
  • Técnica de integración: ¿propagación? ¿consolidación? ¿federación? ¿CDC? ¿híbrida?
  • Modo de integración: ¿asíncrona? ¿síncrona?
  • Intervalo de captura: ¿bajo demanda? ¿push? ¿pull?
  • Tecnología de integración: ¿EII? ¿EDR? ¿ETL?

Como es posible apreciar son muchos puntos a tener en cuenta. ¿Estamos considerándolos?