Archivering in een informatieomgeving
Met de groei van een onderneming groei het aantal beschikbare data en op een gegeven ogenblik ontstaat de nood om te archiveren. In casus een informatieomgeving gaat het echter niet louter om het technisch wegschrijven van de oude data, heel vaak blijft de informatie wel relevant, bijvoorbeeld om de opvolging van de historische groei van de onderneming mogelijk te maken.
Archivering
Aangezien een ODS omgeving en een data warehouse het gevolg zijn van de fysische afscheiding van data (zie artikel
Ad hoc desktop analysis), ontstaat het fenomeen dat dezelfde gegevens in zekere zin dubbel aanwezig zullen zijn binnen dezelfde technische structuur. Een goed opgezette DBMS zal normaal voorzien in de mogelijkheid om verouderde data af te voeren. Dit houdt praktisch in dat deze gegevens zullen gearchiveerd worden op informatiedragers en dat de fysische records uit de tabellen zullen verwijderd worden.
Deze procedure, die als een standaard kan beschouwd worden in een transactionele omgeving, wordt vaak vergeten bij een ODS of data warehouse. Een van de basiskenmerken van ODS is de beperking van de data in de tijd. Het is echter heel moeilijk om zomaar te gaan bepalen welke deze tijdspanne precies is, vooral wanneer de informatie onttrokken wordt door een diversiteit van business users. De ene afdeling kan nood hebben aan een historiek die reikt over meerdere jaren, een andere afdeling zal de ODS slechts gebruiken voor semi-operationele doeleinden en vraagt bijvoorbeeld slechts een historiek van een maand. Maar men kan heel moeilijk anticiperen of er in de toekomst afdelingen zullen bijkomen die een grotere databehoefte zullen hebben. Vandaar dat de data al te vaak gewoon behouden wordt om toekomstige situaties het hoofd te bieden. Toch is het aangewezen om een gulden middenweg te zoeken die algemeen aanvaardbaar is. Indien bijvoorbeeld slechts een klein percentage van alle afdelingen rapporteert over een historiek van meer dan drie jaar, dan is het misschien aangewezen dat de rapporteringmethodes van die afdelingen herbekeken worden. Voor een data warehouse gelden zowat dezelfde principes, vooral dan wanneer ze een heel hoge graad van granaliteit vertegenwoordigen. Analytische rapportering vereist een goede performantie en deze kan enkel gegarandeerd worden wanneer de datahoeveelheid niet escaleert.
Concreet
Voor een ODS, waar de granaliteit van de data aansluit met die van het OLTP systeem, is het aangewezen om dezelfde methodiek van archivering te hanteren. De dimensionale vormgeving van een data warehouse voorziet echter in de mogelijkheid om toch enigszins de informatie te blijven behouden, zij het op een hoger niveau, dus met een lagere granaliteit. Dit kan verwezenlijkt worden door het aanleggen van tabellen die
samenvattingen bevatten in functie van vooraf gedefinieerde dimensies. Men verliest met andere woorden de mogelijkheid om op elk niveau ad hoc extracties uit te voeren, maar behoudt toch een globaal overzicht van de informatie.
Figuur 1: data warehouse archivering Figuur 1 illustreert hoe de factuurgegevens van een dimensionaal data model (zie artikel
Dimensionaal datamodel) kan voorzien worden van een archieftabel. Het betreft in dit voorbeeld een groepering van gegevens van de jaren 1995 tot en met 1999 op het niveau van product en business unit, bijgehouden per jaar/maand. Het is met andere woorden niet langer mogelijk om voor deze jaren te rapporteren op klantniveau of om bijvoorbeeld de details van een specifieke factuur op te vragen.
Het spreekt voor zich dat de aggregaatstabel een vast gegeven geworden is, waarbij de data niet langer bijgewerkt worden. Men dient er met andere woorden zeker van te zijn dat de gearchiveerde informatie correct is en niet meer zullen wijzigen. Elke toevoeging, wijziging of verwijdering van data zal leiden tot het heruitvoeren van de archivering, voor zover de nog beschikbare dimensies dit mogelijk maken.