Data & Validatie

Data Input voor AI Triage: Welke Data Heb Je Nodig?

Een AI-triagesysteem is zo goed als de data die erin gaat. Maar welke gegevens zijn echt nodig? En hoe zorg je dat de kwaliteit hoog genoeg is voor betrouwbare uitkomsten?

PD
Patrick Dronk AI Consultant
|
December 2025
12 min leestijd

Dit artikel is onderdeel van onze serie over AI in de zorg:

AI Triage Serie

3 van 10 artikelen

← Terug naar het overzicht

"Garbage in, garbage out."

Dit oude programmeursgezegde geldt nog steeds, en zeker voor AI in de zorg. Het maakt niet uit hoe geavanceerd je AI-model is: als de invoerdata incompleet of onbetrouwbaar is, zijn de uitkomsten dat ook.

In dit artikel bespreek ik welke data een AI-triagesysteem nodig heeft, hoe je de kwaliteit waarborgt, en wat je moet regelen voor de AVG. Praktische informatie voor iedereen die AI-triage overweegt.

Welke data heb je minimaal nodig?

Voor betrouwbare AI-triage heb je minimaal vijf tot zeven kernelementen nodig. Zonder deze basis kan het systeem geen goede inschatting maken.

De vijf kernelementen:

  1. Klachtomschrijving. Wat is de reden voor contact? Dit kan vrije tekst zijn of een keuze uit een lijst.
  2. Duur van de klacht. Sinds wanneer heeft de patient last? Uren, dagen, weken?
  3. Ernst/intensiteit. Hoe erg is het? Een schaal van 1-10 of een beschrijving als "mild", "matig", "ernstig".
  4. Locatie. Waar zit de klacht? "Borst", "onderbuik", "hoofd", etc.
  5. Context. Zijn er verzwarende factoren? Zwangerschap, bekende aandoeningen, medicijngebruik.

Optioneel maar waardevol: leeftijd, geslacht, relevante medische voorgeschiedenis, en huidige medicatie. Hoe meer context, hoe nauwkeuriger de inschatting.

Gestructureerd vs. vrije tekst: wat werkt beter?

Er zijn verschillende manieren om data te verzamelen. Elk heeft voor- en nadelen:

Input type Voordelen Nadelen
Gestructureerd formulier Consistent, makkelijk te valideren, snel te verwerken Kan nuances missen, minder natuurlijk voor patient
Vrije tekst Natuurlijk, vangt nuances, patient voelt zich gehoord Complexere verwerking, kans op onvolledige info
Chatbot Interactief, kan doorvragen, combineert beide benaderingen Complexer te bouwen, afhankelijk van gesprekskwaliteit
Spraak Laagdrempelig, geschikt voor alle leeftijden Speech-to-text fouten, achtergrondgeluid, dialect

Mijn advies: Combineer beide. Start met gestructureerde basisvragen (wie, wat, waar, hoe lang) en bied daarna ruimte voor vrije tekst ("Wil je nog iets toevoegen?"). Zo krijg je het beste van beide werelden.

Validatieregels: hoe weet je of de data goed genoeg is?

Niet alle invoer is bruikbaar. Validatieregels helpen om onbruikbare of onveilige data te detecteren voordat het systeem ermee aan de slag gaat.

Wat je moet controleren:

  • Compleetheid. Zijn de minimaal vereiste velden ingevuld? Streef naar 80-90% compleetheid van de kernelementen.
  • Consistentie. Kloppen de gegevens met elkaar? Een duur van "3 maanden" bij een klacht die "net begon" is tegenstrijdig.
  • Plausibiliteit. Zijn de waarden realistisch? Een leeftijd van 200 of een temperatuur van 50 graden is niet plausibel.
  • Relevantie. Bevat de invoer medisch relevante informatie? "Hoe laat gaat de praktijk open?" is geen triageverzoek.

Bij onvoldoende kwaliteit moet het systeem actie ondernemen: aanvullende vragen stellen, de patient waarschuwen, of de casus doorverwijzen naar een mens.

Data-eisen per urgentieklasse

Voor hogere urgentieklassen gelden strengere eisen. Logisch: een U1-classificatie (levensbedreiging) vereist meer zekerheid dan een U5-advies (zelfzorg).

U1 - Levensbedreigend

Vereist: alle 5 kernelementen + alarmsymptomen check + vitale parameters indien beschikbaar

Bij twijfel: altijd escaleren naar mens

U2 - Spoed

Vereist: alle 5 kernelementen + context (leeftijd, relevante voorgeschiedenis)

Minimaal 90% zekerheid voor classificatie

U3 - Dringend

Vereist: 4-5 kernelementen

Minimaal 85% zekerheid voor classificatie

U4 - Routine

Vereist: 3-4 kernelementen

Minimaal 80% zekerheid voor classificatie

U5 - Zelfzorg

Vereist: 2-3 kernelementen

Minimaal 75% zekerheid voor classificatie

Belangrijk: Als het systeem niet genoeg vertrouwen heeft in een classificatie, moet het naar een hogere urgentie escaleren of doorverwijzen naar een mens. Veiligheid gaat voor.

AVG en dataverwerking: wat moet je regelen?

Medische gegevens zijn bijzondere persoonsgegevens onder de AVG. Dat betekent extra verplichtingen. Hier de belangrijkste punten voor data-input:

Preprocessing voor AVG-compliance:

  1. Dataminimalisatie. Verzamel alleen wat nodig is voor de triage. Niet meer. Geen "leuk om te weten" velden.
  2. Pseudonimisering. Koppel patientdata los van directe identificatoren waar mogelijk.
  3. Encryptie. Zowel tijdens transport (TLS) als bij opslag (encryption at rest).
  4. Input sanitization. Voorkom dat kwaadwillenden code kunnen injecteren via invoervelden.
  5. Logging. Houd bij wie wanneer welke data heeft ingezien of gewijzigd.

NEN 7510: Voor Nederlandse zorgorganisaties geldt deze norm voor informatiebeveiliging. Zorg dat je AI-leverancier hieraan voldoet.

Omgaan met onvolledige gegevens

In de praktijk is patientdata zelden compleet. Mensen vergeten dingen, geven vage antwoorden, of weten het zelf niet precies. Een robuust systeem moet hiermee omgaan.

Een driestaps aanpak:

  1. Proactief vragen stellen. Als essientiele informatie ontbreekt, stelt het systeem gerichte vervolgvragen. "Je noemt hoofdpijn. Hoe lang heb je daar al last van?"
  2. Zekerheidsscores berekenen. Het systeem geeft aan hoe zeker het is van de classificatie. Onder een bepaalde drempel (bijvoorbeeld 75%) wordt automatisch geescaleerd.
  3. Menselijke fallback. Bij kritieke data gaps of aanhoudende onzekerheid wordt de casus direct doorgestuurd naar een triagist.

Het doel is niet om perfecte data te eisen, maar om te weten wanneer de data goed genoeg is, en wat te doen als dat niet zo is.

Implementatie: van nul naar productie

Het opzetten van een goede data-input pipeline kost tijd. Hier een realistisch tijdpad:

1

Data requirements analyse (2 weken)

Bepaal welke data je nodig hebt, welke je al hebt, en waar de gaps zitten.

2

Validatieregels ontwerp (3 weken)

Definieer de regels voor compleetheid, consistentie en plausibiliteit. Test met echte data.

3

Preprocessing pipeline (4 weken)

Bouw de technische pipeline voor data-opschoning, normalisatie en encryptie.

4

AVG compliance audit (2 weken)

Laat een DPIA uitvoeren en controleer of alle verwerkingen gedocumenteerd zijn.

5

Productie-integratie (3 weken)

Koppel aan je HIS/EPD, test uitgebreid, en ga live met monitoring.

Totaal: 14 weken, ofwel 3-4 maanden. Dit is een realistische schatting voor een middelgrote zorgorganisatie. Kleinere praktijken kunnen sneller, grotere organisaties hebben vaak meer tijd nodig.

Kernpunten

  • Minimaal 5 kernelementen nodig: klacht, duur, ernst, locatie, context
  • Combineer gestructureerde vragen met ruimte voor vrije tekst
  • Hogere urgentie = strengere data-eisen
  • AVG-compliance begint bij dataminimalisatie en eindigt met logging
  • Bij onzekerheid: escaleren, niet gokken
PD

Patrick Dronk

AI Consultant

Hulp nodig bij het opzetten van je data-infrastructuur voor AI-triage? Neem contact op voor een vrijblijvend gesprek.

Meer in deze serie

Vorige

Hoe AI Triage Werkt

Van NLP en symptoomherkenning tot machine learning classificatie.

Binnenkort

Klinische Beslisregels in AI Triage

Hoe worden medische beslisregels vertaald naar AI-algoritmes?

Wil je je data-infrastructuur laten beoordelen?

Plan een vrijblijvend gesprek om te bespreken of je organisatie data-klaar is voor AI.