El Modelo de Lenguaje Amplio (LLM) permite redactar artículos persuasivos basados en palabras clave, aprobar exámenes de competencia profesional y redactar información comprensiva y empática. Sin embargo, además de los conocidos riesgos de ficción, fragilidad e inexactitud en el LLM, otros problemas sin resolver se están convirtiendo gradualmente en el foco de atención, como los modelos de IA que contienen "valores humanos" potencialmente discriminatorios en su creación y uso. Incluso si el LLM ya no fabrica contenido y elimina resultados claramente perjudiciales, los "valores del LLM" aún pueden desviarse de los valores humanos.
Innumerables ejemplos ilustran cómo los datos utilizados para entrenar modelos de IA codifican valores individuales y sociales, que pueden consolidarse en el modelo. Estos ejemplos abarcan diversas aplicaciones, como la interpretación automática de radiografías de tórax, la clasificación de enfermedades de la piel y la toma de decisiones algorítmicas sobre la asignación de recursos médicos. Como se indica en un artículo reciente de nuestra revista, los datos de entrenamiento sesgados pueden amplificar y revelar los valores y sesgos presentes en la sociedad. Por el contrario, la investigación también ha demostrado que la IA puede utilizarse para reducir el sesgo. Por ejemplo, investigadores aplicaron modelos de aprendizaje profundo a radiografías de rodilla y descubrieron factores que los indicadores de gravedad estándar (clasificados por radiólogos) no detectaban en la articulación de la rodilla, reduciendo así las diferencias de dolor inexplicables entre pacientes de raza negra y de raza blanca.
Aunque cada vez más personas se dan cuenta del sesgo en los modelos de IA, especialmente en lo que respecta a los datos de entrenamiento, muchos otros puntos de entrada de los valores humanos no reciben la suficiente atención en el proceso de desarrollo e implementación de estos modelos. La IA médica ha logrado recientemente resultados impresionantes, pero en gran medida no ha considerado explícitamente los valores humanos y su interacción con la evaluación de riesgos y el razonamiento probabilístico, ni se ha modelado.
Para concretar estos conceptos abstractos, imagine que es un endocrinólogo que debe recetar hormona de crecimiento humana recombinante a un niño de 8 años que se encuentra por debajo del percentil 3 de su edad. El nivel de hormona de crecimiento humana estimulada del niño es inferior a 2 ng/mL (valor de referencia >10 ng/mL; el valor de referencia para muchos países fuera de Estados Unidos es >7 ng/mL), y se han detectado mutaciones de inactivación poco frecuentes en su gen codificante de la hormona de crecimiento humana. Creemos que la aplicación de la terapia con hormona de crecimiento humana es obvia e indiscutible en este contexto clínico.
La aplicación de la terapia con hormona de crecimiento humana en los siguientes escenarios puede causar controversia: la altura de un niño de 14 años siempre ha estado en el percentil 10 de sus compañeros, y el pico de la hormona de crecimiento humana después de la estimulación es de 8 ng/mL. No se conocen mutaciones funcionales que puedan afectar la altura, ni otras causas conocidas de baja estatura, y su edad ósea es de 15 años (es decir, sin retraso en el desarrollo). Solo una parte de la controversia se debe a las diferencias en los valores umbral determinados por los expertos con base en docenas de estudios sobre los niveles de la hormona de crecimiento humana utilizados para diagnosticar la deficiencia aislada de la hormona de crecimiento. Al menos tanta controversia surge del balance riesgo-beneficio del uso de la terapia con hormona de crecimiento humana desde las perspectivas de los pacientes, los padres de los pacientes, los profesionales de la salud, las compañías farmacéuticas y los pagadores. Los endocrinólogos pediátricos pueden sopesar los raros efectos adversos de las inyecciones diarias de hormona de crecimiento durante 2 años con la probabilidad de un crecimiento nulo o mínimo en el tamaño corporal adulto en comparación con la actualidad. Los niños pueden creer que incluso si su altura sólo aumenta 2 cm, vale la pena inyectarse la hormona del crecimiento, pero el pagador y la compañía farmacéutica pueden tener opiniones diferentes.
Tomamos como ejemplo el eGFR basado en creatinina, un indicador ampliamente utilizado de la función renal para diagnosticar y estadificar la enfermedad renal crónica, determinar las condiciones para el trasplante o la donación de riñón y determinar los criterios de reducción y las contraindicaciones para muchos medicamentos recetados. El EGFR es una ecuación de regresión simple que se utiliza para estimar la tasa de filtración glomerular medida (mGFR), que constituye un estándar de referencia, pero cuyo método de evaluación es relativamente complejo. Esta ecuación de regresión no puede considerarse un modelo de IA, pero ilustra muchos principios sobre los valores humanos y el razonamiento probabilístico.
El primer punto de entrada para que los valores humanos se incorporen a la TFGe es al seleccionar los datos para ajustar las ecuaciones. La cola original utilizada para diseñar la fórmula de la TFGe está compuesta principalmente por participantes blancos y negros, y su aplicabilidad a muchos otros grupos étnicos no está clara. Los puntos de entrada posteriores para los valores humanos en esta fórmula incluyen: seleccionar la precisión de la TFGm como objetivo principal para evaluar la función renal, determinar el nivel de precisión aceptable, cómo medir la precisión y usar la TFGe como umbral para la toma de decisiones clínicas (como determinar las condiciones para el trasplante renal o prescribir medicamentos). Finalmente, al seleccionar el contenido del modelo de entrada, los valores humanos también se incluirán en esta fórmula.
Por ejemplo, antes de 2021, las directrices sugerían ajustar los niveles de creatinina en la fórmula de eGFR según la edad, el sexo y la raza del paciente (solo se clasificaba como individuos de raza negra o no negra). El ajuste basado en la raza tiene como objetivo mejorar la precisión de la fórmula mGFR, pero en 2020, los principales hospitales comenzaron a cuestionar el uso de eGFR basado en la raza, citando razones como retrasar la elegibilidad del paciente para el trasplante y concretar la raza como un concepto biológico. La investigación ha demostrado que diseñar modelos de eGFR en términos de raza puede tener impactos profundos y variables en la precisión y los resultados clínicos; por lo tanto, centrarse selectivamente en la precisión o centrarse en una parte de los resultados refleja juicios de valor y puede enmascarar la toma de decisiones transparente. Finalmente, el grupo de trabajo nacional propuso una nueva fórmula que se reajustó sin considerar la raza para equilibrar los problemas de rendimiento y equidad. Este ejemplo ilustra que incluso una fórmula clínica simple tiene muchos puntos de entrada a los valores humanos.
En comparación con las fórmulas clínicas con solo una pequeña cantidad de indicadores predictivos, LLM puede constar de miles de millones a cientos de miles de millones de parámetros (pesos del modelo) o más, lo que dificulta su comprensión. La razón por la que decimos "difícil de entender" es que en la mayoría de los LLM, no se puede mapear la forma exacta de obtener respuestas a través del cuestionamiento. El número de parámetros para GPT-4 aún no se ha anunciado; Su predecesor GPT-3 tenía 175 mil millones de parámetros. Más parámetros no significan necesariamente capacidades más fuertes, ya que los modelos más pequeños que incluyen más ciclos computacionales (como la serie de modelos LLaMA [Large Language Model Meta AI]) o los modelos que se ajustan finamente en función de la retroalimentación humana funcionarán mejor que los modelos más grandes. Por ejemplo, según los evaluadores humanos, el modelo InstrumentGPT (un modelo con 1.3 mil millones de parámetros) supera a GPT-3 en la optimización de los resultados de salida del modelo.
Los detalles específicos del entrenamiento de GPT-4 aún no se han revelado, pero sí se han revelado los de modelos de generaciones anteriores, como GPT-3, InstrumentGPT y muchos otros LLM de código abierto. Actualmente, muchos modelos de IA incluyen tarjetas de modelo; los datos de evaluación y seguridad de GPT-4 se han publicado en una tarjeta de sistema similar proporcionada por la empresa de creación de modelos OpenAI. La creación de LLM se puede dividir, a grandes rasgos, en dos etapas: la etapa inicial de preentrenamiento y la etapa de ajuste, destinada a optimizar los resultados del modelo. En la etapa de preentrenamiento, se proporciona al modelo un amplio corpus que incluye el texto original de Internet para entrenarlo a predecir la siguiente palabra. Este proceso de "completado automático", aparentemente simple, produce un modelo fundamental potente, pero también puede conducir a comportamientos perjudiciales. Los valores humanos entrarán en la etapa de preentrenamiento, lo que incluye la selección de datos de preentrenamiento para GPT-4 y la decisión de eliminar contenido inapropiado, como el pornográfico, de dichos datos. A pesar de estos esfuerzos, es posible que el modelo básico aún no sea útil ni capaz de contener resultados perjudiciales. En la siguiente etapa de ajuste, surgirán muchos comportamientos útiles e inofensivos.
En la etapa de ajuste fino, el comportamiento de los modelos lingüísticos suele verse profundamente alterado mediante el ajuste fino supervisado y el aprendizaje de refuerzo basado en la retroalimentación humana. En esta etapa, el personal contratado redactará ejemplos de respuestas para las palabras clave y entrenará directamente el modelo. En la etapa de aprendizaje de refuerzo basada en la retroalimentación humana, evaluadores humanos clasificarán los resultados de salida del modelo como ejemplos de contenido de entrada. Posteriormente, aplicarán los resultados de la comparación anterior para aprender el "modelo de recompensa" y mejorarlo aún más mediante el aprendizaje de refuerzo. Una sorprendente participación humana de bajo nivel puede perfeccionar estos modelos de gran tamaño. Por ejemplo, el modelo InstrumentGPT utilizó un equipo de aproximadamente 40 contratistas reclutados a través de sitios web de crowdsourcing y superó una prueba de selección destinada a seleccionar un grupo de anotadores sensibles a las preferencias de diferentes grupos de población.
Como demuestran estos dos ejemplos extremos, a saber, la sencilla fórmula clínica [TFGe] y el potente LLM [GPT-4], la toma de decisiones y los valores humanos desempeñan un papel indispensable en la configuración de los resultados de los modelos. ¿Pueden estos modelos de IA captar los diversos valores de pacientes y médicos? ¿Cómo orientar públicamente la aplicación de la IA en medicina? Como se menciona más adelante, una revisión del análisis de decisiones médicas puede proporcionar una solución sólida a estos problemas.
El análisis de decisiones médicas no es familiar para muchos profesionales clínicos, pero permite distinguir entre el razonamiento probabilístico (para resultados inciertos relacionados con la toma de decisiones, como la administración de hormona de crecimiento humana en el controvertido escenario clínico que se muestra en la Figura 1) y los factores de consideración (para valores subjetivos asignados a estos resultados, cuyo valor se cuantifica como "utilidad", como el valor de un aumento de 2 cm en la estatura masculina), lo que proporciona soluciones sistemáticas para decisiones médicas complejas. En el análisis de decisiones, los profesionales clínicos deben determinar primero todas las posibles decisiones y probabilidades asociadas con cada resultado, y luego incorporar la utilidad para el paciente (u otra parte) asociada a cada resultado para seleccionar la opción más adecuada. Por lo tanto, la validez del análisis de decisiones depende de si el contexto del resultado es exhaustivo, así como de si la medición de la utilidad y la estimación de la probabilidad son precisas. Idealmente, este enfoque ayuda a garantizar que las decisiones se basen en la evidencia y se ajusten a las preferencias del paciente, reduciendo así la brecha entre los datos objetivos y los valores personales. Este método se introdujo en el ámbito médico hace varias décadas y se aplicó a la toma de decisiones de pacientes individuales y a la evaluación de la salud poblacional, como la formulación de recomendaciones para la detección del cáncer colorrectal a la población general.
En el análisis de decisiones médicas, se han desarrollado diversos métodos para obtener utilidad. La mayoría de los métodos tradicionales derivan el valor directamente de cada paciente. El método más sencillo consiste en utilizar una escala de valoración, donde los pacientes evalúan su nivel de preferencia por un resultado determinado en una escala digital (como una escala lineal del 1 al 10), con los resultados de salud más extremos (como la salud completa y la muerte) en ambos extremos. El método de intercambio de tiempo es otro método común. En este método, los pacientes deben decidir cuánto tiempo de salud están dispuestos a dedicar a cambio de un período de mala salud. El método de apuesta estándar es otro método común para determinar la utilidad. En este método, se pregunta a los pacientes cuál de las dos opciones prefieren: vivir un cierto número de años con una salud normal con una probabilidad específica (p) (t) y asumir el riesgo de muerte con una probabilidad de 1-p; o asegurarse de vivir t años en condiciones de salud cruzadas. Se debe preguntar a los pacientes varias veces con diferentes valores p hasta que no muestren preferencia por ninguna opción, de modo que la utilidad se pueda calcular con base en las respuestas de los pacientes.
Además de los métodos utilizados para obtener las preferencias individuales de los pacientes, también se han desarrollado métodos para obtener utilidad para la población de pacientes. En particular, los debates en grupos focales (que reúnen a los pacientes para compartir experiencias específicas) pueden ayudar a comprender sus perspectivas. Para agregar eficazmente la utilidad grupal, se han propuesto diversas técnicas de debate grupal estructurado.
En la práctica, la introducción directa de la utilidad en el proceso de diagnóstico y tratamiento clínico requiere mucho tiempo. Como solución, se suelen distribuir cuestionarios de encuesta a poblaciones seleccionadas aleatoriamente para obtener puntuaciones de utilidad a nivel poblacional. Algunos ejemplos incluyen el cuestionario EuroQol de cinco dimensiones, la versión abreviada del ponderador de utilidad de seis dimensiones, el Índice de Utilidad en Salud y el Cuestionario de Calidad de Vida Core 30 de la Organización Europea para la Investigación y el Tratamiento del Cáncer.
Hora de publicación: 01-jun-2024




