Arquitectura d'una solució Pentaho

Processos Pentaho

Pentaho Data Integration, es l'alicació ETL que ens permet extraure la informació de les fonts de dades (preferiblement APIs), transformar-les en el format requerit i carregar-les al magatzem de dades de la organització (BD Oracle, esquema MG02).

Actualment podem dir que disposem de com a mínim 4 magatzems de dades en Oracle: HG2, MG01, MG02, MG03.

Un projecte de Pentaho consisteix en l'elaboració de processos de transformació que gestionen l'extracció de dades des de una font origen y la inserció de les dades en una fotn destí. En el nostre cas les fonts origen poden ser API's habilitades a través de Internet, fitxers locals que l'usuari pot preparar i contingut de pàgines web. De la mateixa manera podem dir que les fonts destí són o bé fitxers de sortida majoritàriament en format .csv o d'altres, o bé la Base de Dades Oracle o Mongo DB.

Els processos de ETL de Pentaho es consisteixen en processos de transformació (.ktr) i processos jobs (.kjb).

La diferència bàsica entre un job i una transformació, és que el job determina l'ordre d'execució de les transformacions. Les transformacions són les que gestiones el processament dels registres que s'extrauen, es transformes i es guarden.

Un procés d'extracció d'un dataset està format per:

  1. el job que guia el procés. 
  2. conjunt de transformacions o sub-jobs

El conjunt de processos Pentaho actius de la corporació han de residir en el repositori de productiu, anomenat PentahoRepositori. Actualment aquest repositori es gestiona sobre una base de dades hsqldb que és la que ve per defecte amb la instal·lació de Pentaho Server.

El Pentaho Server està instal·lat en el servidor sw0301.

L'entrada de dades dels processos estarà ubicada en URIs o seran fitxers ubicats en carpetes del servidor d'aplicacions NAS, on els Serveis encarregats de gestionar les dades disposaran d'un conjunt de carpetes que seguiran una definició estandarditzada. En aquesta estructura de carpetes també pot haver-hi espais on els processos dels servidor poden generar els possibles fitxers de sortida.

Estructura de carpetes per extracció d'un Dataset
Estructura de les dades d’entrada
Taules de control de la Base de Dades

1
Etiquetes:
projectes BI
1
Temes:
Comunicació
1
Grups de treball:
Plataforma QlikView

2 comentaris

Justicia Perez, Sebastià

Apreciada Marta, gràcies per posar en comú aquesta iniciativa tecnològica.

 

La trobo molt interessant per moltes raons. Hi ha una en què m'agradaria incidir-hi com és els processos contractuals de devolució del servei. La nostra DSTSC, en particular des de la RDC, en un sentit de protecció de la inversió i de sobirania tecnològica es recomana l'explicitació en els plecs d'aquest procés.

Quan es dóna la circumstància de canvi de proveïdor fruit d'una nova licitació, hem de migrar les dades d'un entorn a un altre. Segurament aquest plantejament que formules pot tecnificar i donar robustesa a dit procés.

Ho estudiem per veure com ho podem aprofitar.

 

Moltes gràcies companya.

 

Sebas

Serra Permanyer, Marta

Hola: 

   Per la nostra experiència, podria ser una bona solució.

Marta