¿Qué significa extensor paralelo DataStage?
Extensor paralelo DataStage(DataStage PX) es una herramienta de integración de datos de IBM. Es una de las herramientas de extracción, transformación y carga (ETL) más utilizadas en el sector del almacenamiento de datos.
Esta herramienta puede recopilar información de fuentes heterogéneas, realizar transformaciones según las necesidades de una empresa y cargar los datos en los respectivos almacenes de datos.
DataStage PX también puede denominarse DataStage Enterprise Edition.
Definición de extensor paralelo DataStage
Extensor paralelo DataStage tiene una arquitectura paralela para procesar datos. Los dos tipos principales de paralelismo implementados en DataStage PX son el pipeline y el paralelismo de partición. La capacidad de procesar datos de forma paralela acelera en gran medida el procesamiento de datos.
Extensor paralelo DataStager incorpora una variedad de etapas a través de las cuales los datos de origen son procesados y reforzados en las bases de datos de destino. Éstas se definen en términos de terabytes. Además de las etapas, DataStage PX utiliza contenedores para reutilizar los componentes del trabajo y secuencias para ejecutar y programar múltiples trabajos al mismo tiempo.
Las etapas más utilizadas en Extensor paralelo DataStage incluyen:
- Transformador
- Agregador
- Conjunto de datos
- Copiar
- Cambiar
- Aplicar
- Modificar
- Filtrar
- Unir
- Fusionar
- Buscar