
Stel, je doet kwantitatief onderzoek naar een van de volgende kwesties:
- Je wilt het woongenot tussen twee wijken vergelijken.
- Je onderzoekt het effect van woonregio op arbeidsmarktkansen, maar hebt alleen kengetallen.
- Of je analyseert hoe jongeren in Brabant keuzes maken voor vervolgonderwijs, maar je weet nog niet welke toets je moet gebruiken.
Hoe kun je dit aanpakken zonder toegang tot statistische software zoals SPSS?
Voor het antwoord op deze vragen kun je nu ook gebruikmaken van generatieve AI, en wel van specifiek voor statistische analyse geschikte tools. Ik laat je er eentje zien, genaamd Julius.ai. Daarbij geef ik je een aantal tips voor het efficiënt inzetten van generatieve AI bij je analyse.
Julius.ai is een generatieve tool waarmee je statistische analyses kunt (laten) uitvoeren en adviezen kunt inwinnen over te volgen procedures en uit te voeren toetsen. Deze tool is ontwikkeld in San Francisco, met een speciale user interface: statistiek. De ontwikkelaars van de tool zijn onafhankelijk (dus niet van Google, Microsoft, Meta of een andere mega-ontwikkelaar) en ze worden niet door de Amerikaanse overheid gefinancierd.
Dankzij de gebruiksvriendelijke interface is Julius zeer geschikt voor statistische analyses. Daarnaast kun je ermee werken in teams en stappenplannen maken. Het grote voordeel is dat de tool data in verschillende formats kan verwerken, zoals CSV, Excel en SPSS. De data worden ingelezen en in een prompt stel jij je vraag. Vervolgens gaat de tool voor je aan de slag, de data worden verkend en je krijgt een kort verslag van de aard van de gegevens: zijn ze scheef verdeeld, zitten er veel uitbijters in en kan je analysevraag met deze data goed worden beantwoord?
Heb je zelf een idee hoe je de vraag moet beantwoorden dan kun je deze in een prompt toelichten, bijvoorbeeld: “Toets met een 5% significantie of populatie A en populatie B van elkaar verschillen. Voer daarvoor een t-toets voor onafhankelijke groepen uit. Gebruik daarvoor de bijgeleverde dataset en beargumenteer of je een gepoolde toets uitvoert of een Welch-correctie gebruikt (dus of de spreiding in beide steekproeven gelijk is of niet).”
Het kan natuurlijk ook zijn dat je nog geen idee hebt welke toets je moet uitvoeren. Dan kun je de tool vragen je te helpen met suggesties: “Ik wil testen of populatie A en populatie B van elkaar verschillen. Voor beide populaties heb ik een willekeurige steekproef getrokken, maar ik weet niet wat de spreiding in deze populaties is. Kun je adviseren welke toets ik het beste kan gebruiken en hoe deze moet worden uitgevoerd?”.
Let wel op: Julius gaat, net als andere tools, direct aan de slag. Je krijgt vaak een overzicht van de kwaliteit van de data, eventuele analyses om de data op te schonen, de toets in kwestie, de uitkomsten en een interpretatie. Je moet dus wel enig verstand hebben van statistiek om dit allemaal te kunnen begrijpen en – vooral – beoordelen. Want, de GenAI-tools zijn niet feilloos en je kunt dus een foutje in de uitkomsten tegenkomen. Bijvoorbeeld omdat je prompt niet volledig was, of omdat de analysevraag te vaag was.
Een ander belangrijk punt om in je achterhoofd te houden is het volgende: Veelgebruikte toetsen, zoals t-toetsen of variantieanalyse, worden heel betrouwbaar uitgevoerd. Ik vind wel resultaten op zes decimalen nauwkeurig hetzelfde als in SPSS. Toetsen echter, die minder vaak gebruikt worden, zoals de Mann-Whitneytoets (een verdelingsvrij alternatief voor de onafhankelijke t-toets), zullen iets foutgevoeliger zijn. Dat komt door het generatieve – lerende – karakter van zo’n tool: bij veel gebruikte toetsen zijn de foutjes er al uit, bij weinig gebruikte toetsen nog niet altijd.
Wil je GenAI inzetten bij je statistische analyses, dan moet je op een aantal zaken letten. Mijn tips hiervoor zijn
- Zorg dat je inzicht hebt in je data en dat je analysevragen helder zijn.
- Schrijf een volledige en duidelijke prompt.
- Geef in de prompt aan wat je wel wilt zien, maar vooral ook wat niet. Wil je bijvoorbeeld zelf de interpretatie doen dan geef je dat in de prompt aan.
- Laat je niet intimideren door lange antwoorden en neem niet alles klakkeloos over.
- Zorg ervoor dat je zelf goed op de hoogte bent van de statistische toepassingen en controleer de uitkomsten kritisch.
- Vergelijk de uitkomsten met die in andere tools of software.
Het belangrijkste echter is dat je kunt beargumenteren waarom een antwoord juist is volgens jou.
Dit was slechts één van de vele voorbeelden van het gebruik van GenAI bij statistische toetsen. Ben je benieuwd hoe GenAI je statistische analyses makkelijker maakt? In de nieuwe editie van Statistiek in Stappen ontdek je hoe je AI-tools inzet voor analyses, toetskeuze en causale modellen. De herziene druk verschijnt na de zomer – mét digitale omgeving vol voorbeelden. Mis het niet!