Meten & Monitoren

Prestatiemetrieken voor AI Triage: Wat Meet Je en Waarom?

Een AI-systeem implementeren is stap een. Weten of het goed werkt is stap twee. Dit artikel legt uit welke metrics ertoe doen en hoe je ze interpreteert.

PD
Patrick Dronk AI Consultant
| December 2025 | 12 min leestijd

AI Triage Serie - Artikel 7 van 10

← Terug naar het overzicht

"Het systeem werkt prima." Maar waar baseer je dat op?

In de zorg is onderbuikgevoel niet genoeg. Je hebt data nodig om te weten of AI-triage daadwerkelijk waarde toevoegt, en waar het beter kan. In dit artikel bespreek ik welke metrieken je moet meten, hoe je ze interpreteert, en hoe je een monitoring-dashboard opzet dat je praktijk daadwerkelijk helpt.

Waarom meten cruciaal is

Zonder metrieken weet je niet:

  • Of het systeem beter presteert dan handmatige triage
  • Waar het systeem fouten maakt en waarom
  • Of triagisten het systeem vertrouwen en gebruiken
  • Of de investering zichzelf terugverdient

Meten is ook een vereiste van de EU AI Act voor hoog-risico systemen. Je moet kunnen aantonen dat het systeem naar behoren functioneert.

Nauwkeurigheidsmetrieken: sensitiviteit en specificiteit

Dit zijn de twee belangrijkste medische metrieken. Ze vertellen je hoe goed het systeem ziektes herkent versus hoe vaak het vals alarm slaat.

Sensitiviteit (recall)

Van alle werkelijk urgente gevallen, hoeveel herkent het systeem? Een sensitiviteit van 95% betekent dat 5 op de 100 urgente gevallen worden gemist. Bij triage wil je dit percentage zo laag mogelijk, liefst onder de 2%.

Specificiteit

Van alle niet-urgente gevallen, hoeveel classificeert het systeem correct als niet-urgent? Een specificiteit van 90% betekent dat 10 op de 100 niet-urgente gevallen onnodig worden geescaleerd. Dit kost capaciteit maar is minder gevaarlijk dan het omgekeerde.

Metriek Streefwaarde Waarom
Sensitiviteit U1 >98% Levensbedreigende situaties mogen niet worden gemist
Sensitiviteit U2 >95% Spoedeisende gevallen vereisen hoge herkenning
Specificiteit >85% Voorkom onnodige escalaties, maar accepteer marge
Overeenstemming arts >90% AI moet vergelijkbaar zijn met menselijk oordeel

Snelheidsmetrieken: responstijden

AI moet snel zijn, anders verliest het zijn waarde. Meet deze tijden continu:

  • Verwerkingstijd. Tijd van invoer tot classificatie. Streef naar onder 2 seconden.
  • Gemiddelde triagecyclus. Totale tijd inclusief menselijke review. Vergelijk met voor AI.
  • Wachttijd patient. Tijd tot eerste contact. Dit is wat patienten merken.
  • Piekbelasting. Prestatie tijdens drukke momenten. Blijft de snelheid stabiel?

Gebruikersmetrieken: adoptie en tevredenheid

Het beste systeem is waardeloos als niemand het gebruikt. Meet hoe triagisten met het systeem omgaan:

  • Override percentage. Hoe vaak wijzigen triagisten de AI-classificatie? Een hoog percentage (boven 20%) kan duiden op wantrouwen of een slecht presterend model.
  • Adoptiegraad. Welk percentage van de triages loopt via AI? Streef naar boven 80% binnen 3 maanden na implementatie.
  • Gebruikerstevredenheid. Periodieke korte enquetes. Simpele vraag: "Helpt het systeem je?"
  • Trainingseffectiviteit. Hoelang duurt het voor nieuwe medewerkers het systeem beheersen?

Bedrijfsmetrieken: kosten en capaciteit

Uiteindelijk moet AI-triage waarde opleveren. Meet de zakelijke impact:

  • Kosten per triage. Totale systeemkosten gedeeld door aantal triages. Vergelijk met kosten voor AI.
  • FTE-besparing. Hoeveel uren bespaart het systeem triagisten? Dit vrijgekomen tijd kan naar complexe gevallen.
  • Capaciteitstoename. Hoeveel meer triages kunnen jullie verwerken met dezelfde bezetting?
  • ROI. Terugverdientijd van de investering. Typisch 12-24 maanden bij goede implementatie.

Een praktisch dashboard opzetten

Een dashboard moet inzichtelijk zijn, niet overweldigend. Hier is een praktische indeling:

Dagelijks (operationeel):

  • Aantal triages vandaag
  • Gemiddelde verwerkingstijd
  • Override percentage
  • Systeem uptime

Wekelijks (kwaliteit):

  • Sensitiviteit per urgentieniveau
  • Trend in override redenen
  • Afwijkingen van verwachte verdeling

Maandelijks (management):

  • Kosten per triage vs. vorige maand
  • Capaciteitsbenutting
  • Gebruikerstevredenheidscore
  • Vergelijking met baseline (voor AI)

Kernpunten

  • • Sensitiviteit voor urgente gevallen moet boven 95% liggen
  • • Specificiteit voorkomt onnodige escalaties, streef naar boven 85%
  • • Override percentage onder 20% duidt op vertrouwen in het systeem
  • • Meet verwerkingstijd en vergelijk met handmatige triage
  • • Een dashboard met dagelijkse, wekelijkse en maandelijkse metrics geeft volledig inzicht
PD

Patrick Dronk

AI Consultant

Hulp nodig bij het opzetten van monitoring? Neem contact op.

Wil je weten hoe jouw AI-systeem presteert?

Plan een gesprek om je monitoring-strategie te bespreken.