3 praktische tips voor het structureren van data
Voordat je goed aan de slag kunt met data analyse is het van groot belang om de opgehaalde data te structureren. Je doet dit om ongewenste resultaten voortijdig uit te sluiten, te voorkomen dat er errors ontstaan in de verwerking van data, en om de analyse zo goed mogelijk uit te kunnen voeren.
We zullen in dit artikel drie handige tips delen om een goede start te maken met het structureren van de data.
Zorg voor een unieke sleutel in iedere tabel
Om te beginnen is het belangrijk om ervoor te zorgen dat iedere tabel een unieke sleutel heeft. De reden hiervoor is dat iedere rij hierdoor uniek identificeerbaar is, en dat een andere tabel goed kan verwijzen naar deze tabel.
In onderstaand screenshot krijgt iedere record in de kolom sector_id een unieke sector_id. Deze sector_id kan weer gebruikt worden in een andere tabel om te verwijzen naar de sector. Bijvoorbeeld een tabel genaamd Opleidingen zou een kolom kunnen bevatten die verwijst naar de sector_id van de tabel Sector.
De twee belangrijkste redenen om een datamodel op deze manier op te bouwen hebben te maken met datanormalisatie: oftewel het voorkomen van redundantie (dubbel opslaan van data) en als gevolg daarvan het efficiënter maken van het datamodel. Vooral bij grotere datasets zal deze aanpak zijn vruchten afwerpen.
Controleer of iedere kolom het juiste datatype toegewezen heeft
Als tweede is het goed om te controleren of iedere kolom het juiste datatype toegewezen heeft gekregen. Power BI zal automatisch een poging doen het juiste type toe te kennen aan de kolommen, maar het is goed om na te gaan of overal het juiste type is toegewezen.
In onderstaande voorbeelden kun je zien dat de kolom sector_id het datatype ‘Whole Number’ toegewezen heeft gekregen. Dit ziet eruit als de beste keuze omdat alle records in deze kolom numeriek zijn en altijd een geheel getal betreffen. Daarnaast zie je dat de kolom sector het datatype Text heeft gekregen. Ook dit is de beste keuze omdat dit inderdaad een tekstveld betreft.
Het tweede screenshot is een overzicht van de verschillende datatypen die toegekend kunnen worden aan kolommen. Het loont de moeite om hier voldoende aandacht aan te besteden omdat er een groot verschil in omvang van het datamodel zal zijn als je kijkt naar het opslaan van Text in tegenstelling tot het type Whole Number. Het is dus zonde om hele getallen op te slaan in een kolom die bedoeld is voor het opslaan van tekst.
Controleer op meerdere manieren de datakwaliteit
Tot slot zijn er nog een aantal tools die Power BI heeft om de kwaliteit en distributie van de data te controleren. We lichten drie van deze tools kort toe:
Kolom distributie: wanneer je deze optie aanvinkt krijg je in één oogopslag te zien hoe de verdeling van waarden in de kolom is. Je ziet direct onder de kolomkop een staafdiagram met de verdeling. Daarnaast kun je zien dat er 1025 verschillende waarden in de kolom aanwezig zijn, waarvan er 304 waarden uniek zijn (slechts eenmaal voorkomen)
Kolom kwaliteit: tussen de kolomkop en de staafdiagram zie je een aantal gekleurde bolletjes. Deze bolletjes geven voor de hele kolom weer hoeveel procent ervan valide data betreft, hoeveel procent errors bevat en hoeveel procent leeg is. Uiteraard wil je het percentage errors op 0% hebben, en wellicht zou je lege cellen uit het datamodel kunnen filteren om zo de omvang van het model verder te beperken.
Kolom profiel: tot slot kijken we naar het profiel, oftewel waar is de data uit opgebouwd? Onderaan het screenshot zie je in de linkerhoek een opsomming van de belangrijkste kenmerken: het aantal gevonden cellen, hoeveel er uniek, leeg of errors bevatten en de minimale en maximale waarden. Dit is een handige tool om snel te zien of er grote uitschieters in de data voorkomen. Rechts zie je daarnaast de distributie van de data, die we eerder in het klein zagen bij kolom distributie.
Al deze tips zijn bedoeld om een goede start te maken met het structureren van je datamodel en vormen slechts een topje van de ijsberg van wat Power BI allemaal te bieden heeft om aan de slag te gaan met data analyse. In een volgend artikel gaan we verder in op het opschonen van data om ervoor te zorgen dat je de juiste data analyseert.
Meer tips ontvangen? Schrijf je in voor de nieuwsbrief!