Data Warehouse, Data Lake, Data Hub of een Data Platform?
De groei van de hoeveelheid data, databronnen en analysemogelijkheden zorgen ervoor dat er ook meerdere mogelijkheden zijn om data op te slaan en te verwerken. Daarbij vliegen allerlei begrippen over tafel zoals Data Lake, Data Hub, Data Warehouse en Data Platform. Een onderzoek van Gartner heeft aangetoond dat de vraag naar Data Hubs met 20% is gestegen tussen 2018 en 2019. Interessant is dat Gartner opmerkte dat meer dan 25% van de klanten dachten dat dat een Data Hub een Data Lake oplossing is[1]. Het onderzoek vanuit Gartner illustreert hoeveel verwarring er is over wat de verschillende begrippen inhouden. In de praktijk merken wij ook dat er veel onduidelijkheid heerst; op welke manier verschillen de begrippen van elkaar? In dit blog zal er meer duidelijkheid verschaft worden de betekenis van deze termen.
Data Warehouse
Een Data Warehouse(DWH) bestaat uit het geïntegreerd opslaan van informatie met als doel om zakelijke beslissingen en analyses te kunnen voeden. Met een data warehouse leg je de basis voor Business Intelligence (BI) en Analytics. De data die zich in een data warehouse bevindt, komt vaak uit verschillende bronnen binnen, of buiten, de organisatie. Doordat een data warehouse enorme hoeveelheden data uit verschillende databronnen (HRM, DMS, ERP) bij elkaar brengt, kunnen er waardevolle inzichten opgedaan worden. Een data warehouse bespaart tijd voor bedrijven die data verzamelen op grote schaal en zorgt voor uniformiteit van definitie van bedrijfsinformatie. Wanneer je een integraal inzicht wilt hebben van je bedrijfsvoering, is een data warehouse van belang.
Data Lake
Een data lake is een opslaglocatie waarin grote hoeveelheden ruwe data in zijn oorspronkelijke structuur zijn opgeslagen. Inhoudelijk kan een Data Lake gestructureerde en ongestructureerde data bevatten. De datastructuur van losse bestanden en hoe deze dienen te worden ontsloten is niet bekend totdat de data wordt gebruikt. Het is hierbij belangrijk dat een data lake niet gezien wordt als een vervangend opslagsysteem, maar als een plek waar analyse en onderzoek kan worden gedaan met ongekende vrijheid vanwege de relatief lage kosten van opslag en het gemak van opschaling. Data lakes vormen over het algemeen een goede basis voor rapportages, visualisaties, advanced analytics en machine learning.
(On)Gestructureerde data?
Gestructureerd: data uit databases, CSV, JSON, etc.
Ongestructureerd: e-mail, PDF, documenten, video, audio, binaire bestanden
Data Hub
Een data hub slaat data zelf niet op, maar verzorgt de flow van data tussen bronsystemen en doelsystemen en gebruikers. Met een data hub geef je eigenlijk precies aan wat er met de data moet gebeuren. Zo kun je dus bepaalde informatie van sensoren koppelen aan een geautomatiseerd ordersysteem. Daarbij wordt zo veel mogelijk gebruik gemaakt van de kracht van de bronsystemen, om optimale performance te garanderen. Vaak heeft een data hub de vorm van een hub-en-spoke-architectuur waarbij systemen data kunnen distribueren via de Data Hub, in plaats van via point-to-point integratie waar ieder systeem verbonden is met ieder ander systeem waar data mee gedeeld moet worden.
Daarnaast biedt een data hub organisaties inzicht om data goed te kunnen interpreteren. Want als je snapt waar je naar kijkt, wordt het eenvoudiger om de correctheid van data te garanderen of waar nodig aan te passen. Je kunt letterlijk tot op kolom- en rijniveau zien hoe datasets zijn opgebouwd. Bovendien voldoe je altijd aan wet- en regelgeving, omdat je precies weet wie toegang heeft tot welke data en waar data is opgeslagen. De data in een data hub is niet per se geïntegreerd en kan verschillende detailniveaus naast elkaar bevatten in tegenstelling tot een Data Warehouse. Afgezet tegen een data lake, kan een data hub data aanbieden in verschillende formats. Waar data warehouses en data lakes eindpunten zijn voor data, is een data hub een knooppunt waar data doorheen vloeit.
Data Platform
Een data platform, ook wel bekend als data management platform, is een geïntegreerde oplossing die de functionaliteiten van data lake, data warehouse, data hub en elementen van een Business Intelligence(BI) Platform combineert. Zonder een data platform wordt er doorgaans voor ieder aspect een aparte tool of set aan tools gebruikt. Dit zorgt voor een complex landschap waarbij vele tools moeten worden gemanaged om data van bron tot eindgebruiker te laten vloeien. Een data platform centraliseert deze oplossingen in één tool en levert daarmee een product dat een stuk beheersbaar is.
Verschillen
Data Platform | |||
---|---|---|---|
Data Lake | Data Warehouse | Data Hub | |
Data | Gestructureerd, ongestructureerd, Relationeel / Non-relationeel |
Gestructureerd, Relationeel | Structured / Ongestructureerd |
Schema | Schema-on-read | Schema-on-write | Schema-on-write |
Opslagkosten | Opslag tegen lage kosten | Opslag tegen hogere kosten | Opslag tegen hogere kosten |
Datakwaliteit | Rauw, mogelijk onbeheerd/ongecontrolleerd | In hoge mate beheerd | In hoge mate beheerd |
Gebruikers | Data Scientists / Developers | Business Analisten | Diverse business gebruikers |
Architectuur | Gecentraliseerd | Gecentraliseerd | Hub-and-spoke |
Schema on read/write?
Schema-on-read: data wordt onveranderd opgeslagen
Schema-on-write: data wordt getransformeerd en opgeslagen in een vooraf gedefinieerde structuur
Conclusie
De enorme toename in databronnen en -volume en de verschillende databehoeften van verschillende gebruikers leveren flinke problemen op voor BI/IT-afdelingen en anderen die zich bezighouden met data voor analyses, artificial intelligence(AI) en BI. Organisaties gebruiken allerlei verschillende tools voor het verwerken en beheren van data. Dat kan ook anders. Dit is dan ook de reden waarom E-mergo ervoor heeft gekozen om een samenwerking aan te gaan met TimeXtender. Het TimeXtender platform biedt een samenhangende datastructuur voor on-premise technologie en cloud. Zo kun je verbinding maken met verschillende databronnen en data catalogiseren, modelleren, verplaatsen en documenteren voor analyse- en AI-doeleinden.
TimeXtender wil veranderingen brengen in de traditionele manier van BI ontwikkeling door herhaaldelijk werk te automatiseren. Bij het bouwen van een traditioneel data platform is er sprake van veel repeterend en tijdrovend werk. Met TimeXtender kan je de overstap maken naar een geïntegreerd data platform dat 5 tot 10 keer snellere data-inzichten oplevert dankzij automatisering. Dit zorgt ervoor dat je wel 80% kunt besparen op beheer en 70% sneller kunt ontwikkelen.
Bronnen
Wil je meer weten over TimeXtender?
Geschreven door:
Ruairidh Smith,
Consultant bij E-mergo