"Garbage in, garbage out."
Dit oude programmeursgezegde geldt nog steeds, en zeker voor AI in de zorg. Het maakt niet uit hoe geavanceerd je AI-model is: als de invoerdata incompleet of onbetrouwbaar is, zijn de uitkomsten dat ook.
In dit artikel bespreek ik welke data een AI-triagesysteem nodig heeft, hoe je de kwaliteit waarborgt, en wat je moet regelen voor de AVG. Praktische informatie voor iedereen die AI-triage overweegt.
Welke data heb je minimaal nodig?
Voor betrouwbare AI-triage heb je minimaal vijf tot zeven kernelementen nodig. Zonder deze basis kan het systeem geen goede inschatting maken.
De vijf kernelementen:
- Klachtomschrijving. Wat is de reden voor contact? Dit kan vrije tekst zijn of een keuze uit een lijst.
- Duur van de klacht. Sinds wanneer heeft de patient last? Uren, dagen, weken?
- Ernst/intensiteit. Hoe erg is het? Een schaal van 1-10 of een beschrijving als "mild", "matig", "ernstig".
- Locatie. Waar zit de klacht? "Borst", "onderbuik", "hoofd", etc.
- Context. Zijn er verzwarende factoren? Zwangerschap, bekende aandoeningen, medicijngebruik.
Optioneel maar waardevol: leeftijd, geslacht, relevante medische voorgeschiedenis, en huidige medicatie. Hoe meer context, hoe nauwkeuriger de inschatting.
Gestructureerd vs. vrije tekst: wat werkt beter?
Er zijn verschillende manieren om data te verzamelen. Elk heeft voor- en nadelen:
| Input type | Voordelen | Nadelen |
|---|---|---|
| Gestructureerd formulier | Consistent, makkelijk te valideren, snel te verwerken | Kan nuances missen, minder natuurlijk voor patient |
| Vrije tekst | Natuurlijk, vangt nuances, patient voelt zich gehoord | Complexere verwerking, kans op onvolledige info |
| Chatbot | Interactief, kan doorvragen, combineert beide benaderingen | Complexer te bouwen, afhankelijk van gesprekskwaliteit |
| Spraak | Laagdrempelig, geschikt voor alle leeftijden | Speech-to-text fouten, achtergrondgeluid, dialect |
Mijn advies: Combineer beide. Start met gestructureerde basisvragen (wie, wat, waar, hoe lang) en bied daarna ruimte voor vrije tekst ("Wil je nog iets toevoegen?"). Zo krijg je het beste van beide werelden.
Validatieregels: hoe weet je of de data goed genoeg is?
Niet alle invoer is bruikbaar. Validatieregels helpen om onbruikbare of onveilige data te detecteren voordat het systeem ermee aan de slag gaat.
Wat je moet controleren:
- • Compleetheid. Zijn de minimaal vereiste velden ingevuld? Streef naar 80-90% compleetheid van de kernelementen.
- • Consistentie. Kloppen de gegevens met elkaar? Een duur van "3 maanden" bij een klacht die "net begon" is tegenstrijdig.
- • Plausibiliteit. Zijn de waarden realistisch? Een leeftijd van 200 of een temperatuur van 50 graden is niet plausibel.
- • Relevantie. Bevat de invoer medisch relevante informatie? "Hoe laat gaat de praktijk open?" is geen triageverzoek.
Bij onvoldoende kwaliteit moet het systeem actie ondernemen: aanvullende vragen stellen, de patient waarschuwen, of de casus doorverwijzen naar een mens.
Data-eisen per urgentieklasse
Voor hogere urgentieklassen gelden strengere eisen. Logisch: een U1-classificatie (levensbedreiging) vereist meer zekerheid dan een U5-advies (zelfzorg).
Vereist: alle 5 kernelementen + alarmsymptomen check + vitale parameters indien beschikbaar
Bij twijfel: altijd escaleren naar mens
Vereist: alle 5 kernelementen + context (leeftijd, relevante voorgeschiedenis)
Minimaal 90% zekerheid voor classificatie
Vereist: 4-5 kernelementen
Minimaal 85% zekerheid voor classificatie
Vereist: 3-4 kernelementen
Minimaal 80% zekerheid voor classificatie
Vereist: 2-3 kernelementen
Minimaal 75% zekerheid voor classificatie
Belangrijk: Als het systeem niet genoeg vertrouwen heeft in een classificatie, moet het naar een hogere urgentie escaleren of doorverwijzen naar een mens. Veiligheid gaat voor.
AVG en dataverwerking: wat moet je regelen?
Medische gegevens zijn bijzondere persoonsgegevens onder de AVG. Dat betekent extra verplichtingen. Hier de belangrijkste punten voor data-input:
Preprocessing voor AVG-compliance:
- Dataminimalisatie. Verzamel alleen wat nodig is voor de triage. Niet meer. Geen "leuk om te weten" velden.
- Pseudonimisering. Koppel patientdata los van directe identificatoren waar mogelijk.
- Encryptie. Zowel tijdens transport (TLS) als bij opslag (encryption at rest).
- Input sanitization. Voorkom dat kwaadwillenden code kunnen injecteren via invoervelden.
- Logging. Houd bij wie wanneer welke data heeft ingezien of gewijzigd.
NEN 7510: Voor Nederlandse zorgorganisaties geldt deze norm voor informatiebeveiliging. Zorg dat je AI-leverancier hieraan voldoet.
Omgaan met onvolledige gegevens
In de praktijk is patientdata zelden compleet. Mensen vergeten dingen, geven vage antwoorden, of weten het zelf niet precies. Een robuust systeem moet hiermee omgaan.
Een driestaps aanpak:
- Proactief vragen stellen. Als essientiele informatie ontbreekt, stelt het systeem gerichte vervolgvragen. "Je noemt hoofdpijn. Hoe lang heb je daar al last van?"
- Zekerheidsscores berekenen. Het systeem geeft aan hoe zeker het is van de classificatie. Onder een bepaalde drempel (bijvoorbeeld 75%) wordt automatisch geescaleerd.
- Menselijke fallback. Bij kritieke data gaps of aanhoudende onzekerheid wordt de casus direct doorgestuurd naar een triagist.
Het doel is niet om perfecte data te eisen, maar om te weten wanneer de data goed genoeg is, en wat te doen als dat niet zo is.
Implementatie: van nul naar productie
Het opzetten van een goede data-input pipeline kost tijd. Hier een realistisch tijdpad:
Data requirements analyse (2 weken)
Bepaal welke data je nodig hebt, welke je al hebt, en waar de gaps zitten.
Validatieregels ontwerp (3 weken)
Definieer de regels voor compleetheid, consistentie en plausibiliteit. Test met echte data.
Preprocessing pipeline (4 weken)
Bouw de technische pipeline voor data-opschoning, normalisatie en encryptie.
AVG compliance audit (2 weken)
Laat een DPIA uitvoeren en controleer of alle verwerkingen gedocumenteerd zijn.
Productie-integratie (3 weken)
Koppel aan je HIS/EPD, test uitgebreid, en ga live met monitoring.
Totaal: 14 weken, ofwel 3-4 maanden. Dit is een realistische schatting voor een middelgrote zorgorganisatie. Kleinere praktijken kunnen sneller, grotere organisaties hebben vaak meer tijd nodig.
Kernpunten
- • Minimaal 5 kernelementen nodig: klacht, duur, ernst, locatie, context
- • Combineer gestructureerde vragen met ruimte voor vrije tekst
- • Hogere urgentie = strengere data-eisen
- • AVG-compliance begint bij dataminimalisatie en eindigt met logging
- • Bij onzekerheid: escaleren, niet gokken
Patrick Dronk
AI Consultant
Hulp nodig bij het opzetten van je data-infrastructuur voor AI-triage? Neem contact op voor een vrijblijvend gesprek.