Data Factory; data ophalen, combineren en klaarmaken

Tijdens een Excel training van de Academies

Blogs over Microsoft Fabric

Blog 2: Data Factory; data ophalen, combineren en klaarmaken

Leestijd

5 minuten

Auteur

Robin van Hattum

Stel je voor dat je elke ochtend als eerste op kantoor bent, alle systemen opstart, data uit tien verschillende bronnen handmatig kopieert naar één plek, alles controleert op fouten en pas daarna je collega’s laat beginnen met hun werk. Klinkt uitputtend, toch? Toch is dit in de praktijk precies wat in veel organisaties gebeurt. Niet door één persoon, maar verspreid over meerdere medewerkers, tools en handmatige handelingen. Data komt zelden op één plek vandaan. Je hebt een webshop, een kassasysteem, een CRM, misschien een Excel-bestand dat iemand wekelijks bijhoudt. Al die bronnen moeten samenkomen voordat je er iets mee kunt. En dat proces van data ophalen, samenvoegen, schoonmaken en klaarzetten kost enorm veel tijd. Tijd die je eigenlijk wilt besteden aan het analyseren van die data en er slimme dingen mee doen. Data Factory in Microsoft Fabric is precies de oplossing voor dit probleem.

In de vorige blog hebben we je uitgelegd wat Fabric is en wat het voor jouw organisatie kan betekenen. In deze blog gaan we dieper in op het onderdeel Data Factory.

Introductie in Data Factory

Data Factory is in feite een slimme postbode. Hij weet waar alle data staat, haalt het op volgens een schema wat jij instelt, schoont de data op volgens jouw instellingen en legt het klaar op de plek waar jij het nodig hebt. Daarvoor gebruikt het de volgende tooling:

  • Pipelines (Automatisering)
    Een pipeline is een automatisch werkproces. Je beschrijft stap voor stap wat er moet gebeuren: data ophalen hier, neerzetten daar, daarna deze controle uitvoeren. Fabric voert dat elke keer precies zo uit. Voor het ontwerpen heb je geen programmeerkennis nodig, je kunt stappen slepen en in elkaar klikken.
    Voorbeeld: Elke nacht om 02:00 haalt de pipeline data op uit het kassasysteem en het ERP, combineert die, en zet het klaar voor de rapporten van de volgende ochtend.
  • Dataflows Gen2 (Bewerken en opschonen)
    Dataflows zijn de plek waar je ruwe data opschoont en klaarmaakt met een visuele, klikbare interface. Geen code nodig. Kolommen samenvoegen, fouten verwijderen, datatypes aanpassen. Je ziet meteen wat je doet.
    Voorbeeld: Klantnamen staan in drie systemen net anders gespeld. In een Dataflow herstel je dat met een paar klikken, zodat alles klopt in je rapportage.

Overzicht Microsoft Fabric platform

Voor Power BI-gebruikers zijn Dataflows herkenbaar, ze lijken sterk op de Power Query-editor die je al kent. Het verschil is dat de resultaten nu centraal beschikbaar zijn voor de hele organisatie, niet alleen voor jouw eigen rapport. Voor database-professionals bieden Pipelines een centrale omgeving met veel controle: je bepaalt precies wat er wanneer gebeurt, kunt foutafhandeling instellen en ziet in een overzicht of alle stappen goed zijn verlopen.

Een concreet voorbeeld: productiebedrijf met vier systemen

Stel je bent data-analist bij een productiebedrijf. De data die je nodig hebt staat verspreid over vier systemen. Zonder Fabric moet je de data zelf uit de verschillende systemen halen en samenbrengen in bijvoorbeeld Power BI. Maar je collega’s zijn bezig met dezelfde processen uitvoeren en profiteren niet van de intelligentie die jij erin stopt.
Met Fabric zou dat er zo uit kunnen zien:

  • Bronnen verbinden
    Je verbindt Fabric eenmalig met je ERP systeem, je kwaliteitsdatabase, je HR-systeem en een Excel file met budgetcijfers.
  • Data ophalen en combineren
    Een pipeline haalt elke nacht de nieuwe data op uit alle vier de bronnen. De data wordt samengevoegd: productieorder gekoppeld aan keuringsresultaat, gekoppeld aan de ploeg die werkte, afgezet tegen het budget.
  • Data opschonen in Dataflow
    In een Dataflow herstel je afwijkingen: orders zonder keuringsresultaat krijgen een markering, datumnotaties worden gelijkgetrokken, afdelingscodes worden vertaald naar leesbare namen.
  • Klaar voor gebruik
    De data wordt centraal opgeslagen (dit leggen we verder uit in de volgende blog) en is nu klaar voor gebruik. Al je collega’s kunnen nu van deze data gebruik maken zonder het hele proces zelf ook uit te moeten voeren.

Resultaat: met Fabric centraliseer je het ophalen en opschonen van je data en automatiseer je dit proces. In veel organisaties zitten hier grote verborgen kosten in omdat medewerkers stuk voor stuk dit handmatig aan het uitvoeren zijn.

Waarom Fabric?

Er zijn natuurlijk meer tools waarmee je data kunt importeren en combineren. Denk aan Azure Data Factory, SSIS (de klassieke SQL Server-tool) of andere externe platformen. Waarom zou je hiervoor dan gebruik maken van Fabric?

Het grote voordeel van Fabric is niet dat één onderdeel beter is dan de concurrentie. Het voordeel is dat alles samenwerkt binnen één platform. De data die Data Factory ophaalt en opschoont, staat meteen klaar in je datawarehouse. Je Power BI rapportages draaien in hetzelfde platform. Je kunt voorspellingen maken op diezelfde data met Machine Learning modellen. Copilot is erin verwerkt zodat je met AI razendsnel oplossingen kunt bouwen in Fabric of Power BI. En veel elementen zijn visueel te bouwen zonder dat je code hoeft te gebruiken. Daarmee is het platform laagdrempelig om mee te starten.

Is dit iets voor jou?

Dat Factory in Fabric is de moeite waard als je je herkent in één of meer van deze situaties:

  • Je data komt uit meerdere bronsystemen
  • Data wordt nu niet centraal ontsloten maar individueel door gebruikers
  • Data wordt nu ontsloten, voorbereid en opgeslagen in meerdere tools
  • Je wilt meer automatiseren en zoekt een aanpak die ook voor niet technische collega’s begrijpelijk is

Het mooie van Fabric is dat je klein kunt beginnen. Eén databron automatiseren, één dataflow bouwen. Je merkt al het verschil, en van daaruit groei je verder in je eigen tempo.

Interesse in een cursus?

We hebben een fantastische introductietraining ontwikkeld in Microsoft Fabric. In twee dagen tijd leer je alles over de functionaliteit en hoe je dit concreet kunt inzetten in jouw organisatie. Je gaat naast de theorie ook veel praktisch aan de slag zodat je écht in staat bent om het ook zelf te kunnen doen. Bekijk hieronder onze planning.

Agenda

Komende SQL cursussen

Wo 16 & Do 17 septemberMicrosoft Fabric FundamentalsUtrecht
Di 3 & Wo 4 novemberMicrosoft Fabric FundamentalsUtrecht