Là Super Ai en chemise blanche bat Dr House. Les tests sur plus de 300 cas impossibles peuvent atteindre unPrécision dans le diagnostic 4 fois plus élevée que celle obtenue en moyenne par les médecins humains des «collègues» (avec des frais mineurs). Le défi a été lancé par une équipe Microsoft AI qui a essayé de développer un système qui pourrait imiter le processus de diagnostic itératif, c'est-à-dire un chemin qui commence à partir d'un point, puis perfectionne et améliore le résultat, testant des hypothèses et ajoutant progressivement de nouvelles informations. Tout comme un groupe d'experts en chair et en sang le ferait.
L'intelligence artificielle, expliquez les auteurs de l'étude dans laquelle le système a été évalué (disponible en version préimprimée, c'est-à-dire pas encore soumis à une revue égale), promet de grandes possibilités dans l'ambition d'étendre l'accès aux connaissances et au raisonnement médical spécialisé. Cependant, c'est la réflexion de départ, la plupart des évaluations des modèles linguistiques sont basées sur des caricatures statiques et des questions de réponse multiples qui ne reflètent pas la complexité et les nuances de médecine basées sur des preuves d'efficacité dans des contextes réels. Dans la pratique clinique, les médecins formulent et nourrissent des hypothèses diagnostiques itératives, adaptant toute question et testez après ce qu'ils viennent d'apprendre, et évaluent l'évolution des preuves avant de formuler un diagnostic définitif. Pour imiter ce processus, l'équipe de scientifiques a introduit un système: la «référence de diagnostic séquenale», qui transforme 304 cas cliniques difficiles à diagnostiquer, présentés lors de la conférence clinique pathologique du «New England Journal of Medicine», lors de réunions diagnostiques progressives.
Le test
Comment le «test» a-t-il eu lieu? Un médecin ou un je commence à analyser un court résumé de cas et doit demander plus de détails à un modèle de «gardien» qui ne révèle certains résultats que lorsqu'il est explicitement remis en question. Les performances sont évaluées non seulement sur la base de la précision diagnostique, mais également sur la base du coût des visites médicales et des examens effectués. Sur ce chemin, l'orchestrateur jamais diagnostique (MAI-DXO) est né, un orchestrateur indépendant du modèle qui simule l'activité d'un panel de médecins, propose un diagnostic différentiel probable et sélectionne stratégiquement des tests de grande valeur et des tests pratiques.
Les résultats obtenus favorisent la «machine». En combinaison avec le modèle OpenAI, les experts expliquent que le système en question – une sorte d'intelligence artificielle «agent», autonome – atteint une précision de diagnostic de 80%, quatre fois plus élevée que la moyenne de 20% des médecins généralistes. Il réduit également les coûts de diagnostic de 20% par rapport aux médecins et 70% par rapport au modèle d'IA standard. Et s'il est configuré pour une précision maximale, il atteint 85,5%. En d'autres termes, les modèles d'IA actuels peuvent être utilisés afin qu'ils adoptent un processus de raisonnement similaire à ce qui suivrait un groupe de spécialistes humains et des améliorations des performances sont généralisées, quels que soient les modèles utilisés, qu'ils sont des familles OpenII, Gemini, Claude, Grok, Deepseek et LLAMA. « Nous soulignons – concluons les auteurs – tels que les systèmes d'intelligence artificielle, s'ils sont guidés pour penser de manière itérative et agir judicieusement, peut améliorer à la fois la précision diagnostique et la relation de coût dans l'assistance clinique ».




