Validamos nuestra IA dental con odontólogas de verdad, en consulta — y firmaron el 97,8 %

Validamos nuestra IA dental con odontólogas de verdad, en consulta — y firmaron el 97,8 %

Capítulo de la serie Sprint DGX. Un modelo clínico no se demuestra con benchmarks: se demuestra cuando una profesional, con la ficha del medicamento delante, dice «esto lo firmo». (desde el Capítulo 1).

Hay un momento en cualquier proyecto de IA clínica en el que dejan de importar los gráficos. No es cuando el modelo gana un examen público, ni cuando responde rápido: es cuando una odontóloga lee lo que ha generado, lo contrasta contra su criterio profesional y decide si pondría su nombre detrás. Ese momento llegó en este sprint, y la respuesta fue casi unánime: un 97,8 % de aceptación. Este capítulo cuenta cómo se prepara un corpus clínico con la seriedad que merece, y cómo se valida con profesionales reales, en la consulta, mientras atienden.

Aceptación clínica del 97,8 % en la validación con una odontóloga colaboradora: una IA dental que una profesional firma.

El corpus que da seriedad al producto

Antes de que un modelo razone bien, alguien tiene que preparar bien lo que aprende. Nuestro producto acumula años de conversaciones reales entre el equipo de una clínica dental partner y sus pacientes: mensajes administrativos, recordatorios, comunicaciones, notas de operadora. Es una mina de cómo se gestiona de verdad una clínica, y, como toda mina, hay que refinarla antes de usarla.

Hicimos una auditoría a fondo del corpus completo, con criterios específicos por cada uno de los agentes del producto (recepción, agenda, facturación, vademécum, y demás). El resultado fue mejor de lo que esperábamos: más de la mitad del material tiene estructura de razonamiento clínico-asistencial identificable, con anclaje directo en nueve de los diez agentes del sistema y cientos de casos con relevancia clínica de seguridad (alergias, embarazo, anticoagulantes). Material valioso, real, generado en el día a día de una clínica que funciona.

Refinar antes de entrenar

Un corpus grande no es lo mismo que un corpus útil. Buena parte de esos mensajes son plantillas automáticas del software de gestión, confirmaciones de cita, recordatorios, que se repiten sin variación. Las consolidamos: dejamos una sola copia de cada contenido idéntico, normalizamos el texto y retiramos los campos que no aportan al aprendizaje. El corpus pasó de «demasiado grande para revisarlo con cuidado» a un conjunto manejable y de calidad, donde cada fila aporta algo distinto.

Es un trabajo poco glamuroso y enormemente importante. La calidad de un modelo clínico se decide aquí, en la mesa de preparación, mucho antes del entrenamiento.

Privacidad por diseño, no como añadido

Trabajar con datos de pacientes obliga a hacer las cosas bien desde el primer minuto. Montamos un pipeline de anonimización por capas, con auditoría en cada paso:

  • Retirada de los campos identificativos directos (identificadores internos, teléfono, correo).
  • Detección de documentos de identidad, IBAN y direcciones postales mediante patrones estrictos.
  • Reconocimiento de nombres propios, con sus variantes y diminutivos en español.
  • Patrones específicos del software de gestión y de los nombres del personal de la clínica, confirmados con el equipo.

Cada dato sensible se sustituye por una etiqueta neutra, consistente dentro de cada registro. El pipeline inyectó más de 400.000 sustituciones sobre el corpus, preservando intactos los casos clínicamente relevantes, porque el objetivo es proteger a las personas sin perder el valor médico de la información.

Lo afinamos a conciencia, con varias pasadas de revisión y auditoría independiente, hasta dejar la huella de datos personales reducida a una fracción mínima y verificada. Esa es nuestra forma de entender la privacidad en salud: no como una casilla que se marca al final, sino como una propiedad del sistema desde el diseño.

La prueba de fuego: una profesional de verdad

Con el corpus limpio y protegido, generamos un conjunto de casos de razonamiento clínico y nos planteamos la única pregunta que importa: ¿esto lo firmaría una odontóloga?

Para responderla, contamos con una odontóloga colaboradora de la clínica partner. Y aquí apareció un reto muy real: una clínica activa no para. No hay tiempo para onboardings a herramientas de software ni para revisar documentos enormes de forma asíncrona entre paciente y paciente. Así que diseñamos un método de validación pensado para su realidad: bloques de chat con un intermediario humano. La odontóloga al teléfono; le leemos cada bloque de casos, ella responde con su criterio clínico por voz, y nosotros volcamos sus veredictos estructurados. Eficiente, respetuoso con su tiempo, y centrado en lo único que aporta valor: su juicio profesional.

Ese método, que acabó siendo el estándar del sprint para validación externa, convierte a la clínica en parte del equipo sin pedirle que se convierta en usuaria de herramientas técnicas.

Iterar hasta el «esto lo firmo»

La validación clínica no es un sello que se estampa una vez: es un proceso. Una primera ronda nos dio una aceptación ya alta, con anotaciones puntuales de la odontóloga sobre cómo presentar mejor ciertas recomendaciones y cómo encajar criterios propios de la clínica. Tomamos cada comentario en serio, ajustamos el modelo en consecuencia, y volvimos a generar.

En la segunda ronda, sobre una muestra equivalente y con las mismas proporciones por categoría, el resultado fue claro:

Veredicto Recuento
Acepta 44
Acepta con nota de presentación 1
Aceptación 97,8 %

Y hubo un detalle que nos dejó especialmente satisfechos. Uno de los casos de la segunda ronda demostraba, por sí solo, que el modelo no se había limitado a «sonar más prudente»: había interiorizado de verdad el criterio clínico que le habíamos pedido, hasta el punto de aplicarlo correctamente en una situación nueva. La propia odontóloga lo señaló como evidencia de que la mejora había calado de verdad. No es lo mismo un modelo que parece cumplir que uno que razona bien: la diferencia se ve cuando lo mira un ojo experto.

Lo que entra al entrenamiento

Cerramos esta fase con una decisión deliberada: no perseguir números grandes por el gusto de tenerlos. Lo que alimenta la capa de razonamiento del producto es el corpus refinado y anonimizado más los casos clínicos validados por una profesional, con un 97,8 % de aceptación y sin reparos clínicos. Calidad firmada por quien entiende, no volumen sin criterio.

Esa es, para nosotros, la frontera que separa una demo de un producto clínico. Cualquiera puede enseñar un modelo que responde. Pocos pueden enseñar un modelo cuyas respuestas una odontóloga revisa, contrasta contra la ficha oficial del medicamento, y firma. Construir IA para salud es, sobre todo, ganarse ese sí, y se gana con datos bien preparados, privacidad de serie y el criterio de profesionales reales en el centro del proceso.

Próximo capítulo: del modelo entrenado al que responde en milisegundos, cómo se sirve el VLM para que acompañe la consulta en tiempo real.

Preguntas frecuentes

¿Cómo sabéis que el modelo es fiable y no solo «suena bien»? Porque lo valida una odontóloga colaboradora caso por caso, con su criterio clínico y contrastando contra fuentes oficiales como la ficha del medicamento. La aceptación de la última ronda fue del 97,8 %, sin reparos clínicos. Un benchmark mide conocimiento; la validación profesional mide confianza.

¿Qué hacéis con los datos de los pacientes? La privacidad es una propiedad del sistema desde el diseño. Antes de cualquier entrenamiento, el corpus pasa por un pipeline de anonimización por capas que sustituye toda información personal por etiquetas neutras y se audita en cada paso, dejando la huella de datos personales en una fracción mínima y verificada. Y, una vez en producción, el modelo está pensado para correr on-premise: los datos no salen de la clínica.

¿Por qué no validar miles de casos en lugar de unas decenas? Porque lo que aporta valor es la profundidad del criterio clínico, no el volumen. Una muestra estratificada y bien revisada por una profesional dice más sobre la fiabilidad real del modelo que un número grande sin escrutinio experto. Preferimos calidad firmada a cantidad sin criterio.

Compartir:
IA aplicada a problemas realesExplora nuestras soluciones
Validamos nuestra IA dental con odontólogas de verdad, en consulta — y firmaron el 97,8 % | Blog | Quantum Howl