Les 3: Analyse van gegevens

Paragraaf

Les 3: Analyse van gegevens

Paragraaf Progress:

De gegevens in een database kan veel doelen hebben, ze zijn zinloos zonder context. Er is een verschil tussen gegevens en informatie, wat in deze les besproken wordt, samen met de manier waarop organisaties data-analyse inzetten bij het nemen van besluiten

Leerdoelen van deze les

Na afronding van deze les kan je

  • Het verschil uitleggen tussen gegevens en informatie
  • Het gebruik van data-analyse uitleggen in informatie te verkrijgen
  • Een paar stappen beschrijven het opstellen van gegevens voor de analyse

Gegevens en informatie

Mensen die niet direct met databases werken zien “gegevens” en “informatie” als synoniemen, voor de mensen die wel direct met databases werken zijn het verschillende begrippen.

Voor computersystemen zijn gegevens op zich onbewerkt en missen context om er een betekenis aan te kunnen geven. Een rij getallen kan een lijst van kassabonnen, passagiers in het openbaarvervoer of het aantal passanten van een toegangshek zijn. Zonder context is net mogelijk te weten waar de rij getallen over gaan. Informatie duidt op gegevens die op enige manier verwerkt zijn waardoor ze nuttig en bruikbaar worden.

Gegevensverwerking

Dat databases op diverse manieren op kunnen slaan is in de vorige les behandeld. Door metadata aan gegevens te koppelen tijdens het opslaan van gegevens wordt de context van de gegevens bepaald. Het verwerken van ruwe gegevens in en relationele database gebeurt door deze op te slaan in tabellen en kolommen. De kolomnaam is hierbij metadata en de waarden in die kolom zijn gegevens. Door deze werkwijze krijgen de gegevens betekenis. Aanvullende context kan verkregen worden door meer metadata.

Productie nuttige informatie

Enige betekenis aan gegevens wordt door metadata gegeven, maar om de gegevens in zinvolle informatie om te zetten zal meer moeten gebeuren. Aan kolom met verkoop bonnen heeft iemand die de omzet van de vorige maand wil weten te weinig. Om dat te weten zullen de gegevens uit de kolom geaggregeerd moeten worden met een filter op de vorige maand. Datawarehouses kunnen zo ingericht worden dat deze informatie direct beschikbaar is, in een OLTP database zal dit niet zo snel gebeuren, maar worden ze berekend bij een uitvraging.

Informatie en Informatie

Meer inlichtingen kan onthuld worden door het analyseren van de informatie die uit de gegevens gehaald kunnen worden. Voor het begrijpen van trends uit het verleden en voorspellen van toekomstige trends kunnen zakelijke beslissers deze inlichtingen gebruiken. Uit de verwerking van de ruwe verkoopgegevens tot informatie kan na voren komen dat de omzet de laatste drie maanden sterk gedaald is. Verder onderzoek door een data-analist kan hiervan de oorzaak te achterhalen. Deze analist kan hierbij vragen gebruiken als:

  • Is het dalen van de omzet te koppelen aan een actie die het bedrijf heeft gedaan of mee gestopt is zoals reclameacties
  • Zijn er producten uit het assortiment gehaald
  • Waren er minder evenementen die gericht waren op de bedrijfsactiviteiten
  • Waren er andere omstandigheden die van invloed zijn op de verkoop, zoals het weer
  • Is er concurrentie ontstaan
  • Hebben enkele van deze factoren een relatie met elkaar

Het gebruiken van geavanceerde algoritmes en statistische analyses geeft data-analisten de optie om, bij gegevens onderzoek, niet direct duidelijke trends en patronen te ontdekken waaruit nieuwe onderzoeklijnen volgen. Primair zullen analisten antwoorden op vragen vinden, maar ze kunnen ook voorspellingen doen over toekomstige trends en helpen bij het plannen van promotie acties.

SQL Server Analysis Service (SSAS) kan gebruikt worden voor het creëren van kubussen en datamodellen in tabellen. Met business intelligence tools, zoals Excel en Power Pivot, kunnen deze creaties geanalyseerd worden. Met SSAS kan ook datamining plaats vinden.

Gegevens voorbereiden voor analyse.

Geldige gegevens zijn belangrijk bij het uitvoeren van analyses zodat het bruikbare, betrouwbare en praktische resultaten oplevert. Voor het presenteren van deze resultaten moet je over manieren beschikken zodat deze duidelijk en gemakkelijk te begrijpen zijn voor de belanghebbenden.

Kwaliteit van de gegevens waarborgen

De gegevens moeten nauwkeurig zijn. Zodat zeker is dat deze de vereiste betekenis hebben. Kwaliteitswaarborging van de gegevens omvat ook:

  • Schoonmaken van gegevens – onjuiste gegevens corrigeren en onvolledige verwijderen.
  • Ontdubbelen van gegevens – het aanpassen van gegevens die op meerdere manieren voorkomen met dezelfde betekenis. Een voorbeeld hiervan is “ZH” en “Zuid-Holland”.

Om de kwaliteit van de gegevens te waarborgen hebben veel RDBMS systemen tool die dit mogelijk maken. Daarnaast zijn er bij externe leveranciers tools die in het RDBMS geïntegreerd kunnen worden. Bij SQL Server is Data Quality Services te gebruiken voor het profileren en corrigeren van data. Hierdoor worden de data-analyses die uitgevoerd worden zo nauwkeurig mogelijk. Normaliter wordt Data Quality Services gebruikt om de geldigheid van de geladen gegevens te verzekeren.

Presenteren van de gegevens

De wijze waarop de resultaten van de data-analyse gepresenteerd worden is belangrijk. Dit moet op een begrijpelijke manier gebeuren. Een slechte presentatie kan tot frustratie bij de belanghebbenden leiden en misvattingen veroorzaken, waardoor er verkeerde interpretaties gebruikt worden bij het nemen van besluiten. Daarom is het ook belangrijk dat de analyserapporten op actuele gegevens gebaseerd zijn.

SQL Server Reporting Services is een uitgebreide tool voor het maken en beheren van rapportages.

Hiermee kunnen snel en eenvoudig rapporten gemaakt worden door specialisten en niet specialisten. De populaire tools zoals Excel, Power View en Power Pivot kunnen ook gebruikt worden om inlichtingen weer te geven.

@

Niet recent actief