Η υπόσχεση της τεχνητής νοημοσύνης (ΤΝ) να μειώσει τον φόρτο εργασίας των γιατρών φαίνεται πιο κοντά από ποτέ στην πραγματικότητα, καθώς προηγμένα εργαλεία χρησιμοποιούνται ήδη για τη συλλογή ιατρικού ιστορικού, την ερμηνεία εξετάσεων, ακόμη και την παροχή προκαταρκτικών διαγνώσεων. Ωστόσο, μια νέα μελέτη αποκαλύπτει τα όρια αυτών των τεχνολογιών, θέτοντας κρίσιμα ερωτήματα για την ικανότητά τους να λειτουργούν σε καταστάσεις του πραγματικού κόσμου.
Εργαλεία τεχνητής νοημοσύνης, όπως αυτά που βασίζονται σε μεγάλα γλωσσικά μοντέλα, έχουν ήδη ενταχθεί στις καθημερινές αλληλεπιδράσεις ασθενών και επαγγελματιών υγείας. Οι ασθενείς τα χρησιμοποιούν για να κατανοήσουν τα συμπτώματά τους, ενώ οι επαγγελματίες βλέπουν σε αυτά ένα εργαλείο που μπορεί να επιταχύνει τη λήψη αποφάσεων. Παρ’ όλο που τα εργαλεία αυτά διαπρέπουν στις τυποποιημένες εξετάσεις, πόσο καλά ανταποκρίνονται στις πολυπλοκότητες του πραγματικού κόσμου;
Η μελέτη που αλλάζει τους κανόνες του παιχνιδιού
Μια πρόσφατη έρευνα από επιστήμονες της Ιατρικής Σχολής του Χάρβαρντ και του Πανεπιστημίου του Στάνφορντ φέρνει στο φως το κενό μεταξύ της θεωρητικής απόδοσης και της πρακτικής εφαρμογής. Όπως αναφέρεται στη μελέτη, που δημοσιεύτηκε στις 2 Ιανουαρίου στο Nature Medicine, τα γλωσσικά μοντέλα αποδίδουν εξαιρετικά σε ερωτήσεις πολλαπλής επιλογής, αλλά παρουσιάζουν σημαντικές αδυναμίες στις συνομιλίες που προσομοιώνουν αλληλεπιδράσεις με ασθενείς στον πραγματικό κόσμο.
Οι ερευνητές σχεδίασαν ένα πρωτοποριακό πλαίσιο αξιολόγησης με την ονομασία CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine). Αυτό το εργαλείο εστιάζει στην αξιολόγηση της ικανότητας των μοντέλων να λειτουργούν σε ρεαλιστικές συνθήκες, εξετάζοντας πτυχές όπως η συλλογή πληροφοριών, η διαχείριση αδόμητων δεδομένων και η ακρίβεια στη διάγνωση.
Τα αποτελέσματα που προκαλούν σκέψη
Η μελέτη δοκίμασε τέσσερα γλωσσικά μοντέλα (τόσο εμπορικά όσο και ανοιχτού κώδικα) χρησιμοποιώντας 2.000 κλινικές περιπτώσεις από την πρωτοβάθμια περίθαλψη και 12 ιατρικές ειδικότητες. Τα αποτελέσματα ήταν αποκαλυπτικά: τα μοντέλα παρουσίασαν αξιοσημείωτες αδυναμίες όταν έπρεπε να αντιμετωπίσουν τη δυναμική φύση των κλινικών συνομιλιών.
«Η δουλειά μας αποκαλύπτει ένα εντυπωσιακό παράδοξο. Ενώ αυτά τα μοντέλα τεχνητής νοημοσύνης διαπρέπουν στις εξετάσεις ιατρικού συμβουλίου, παλεύουν με τα βασικά προβλήματα που συζητούνται κατά την επίσκεψη σε γιατρό» δήλωσε ο Pranav Rajpurkar, επίκουρος καθηγητής Βιοϊατρικής Πληροφορικής στο Χάρβαρντ.
Οι περιορισμοί περιλαμβάνουν την αδυναμία να θέσουν κρίσιμες ερωτήσεις για τη συλλογή πληροφοριών, τη δυσκολία στη σύνθεση διάσπαρτων δεδομένων και τη μειωμένη ακρίβεια όταν αντιμετωπίζουν πιο ανοιχτές και μη δομημένες καταστάσεις.
Ρεαλιστική αξιολόγηση: Το CRAFT-MD στην πρώτη γραμμή
Το CRAFT-MD φέρνει την αξιολόγηση των μοντέλων AI πιο κοντά στην πραγματικότητα. Προσομοιώνει συνομιλίες με ασθενείς, όπου ένας «πράκτορας» AI παίζει τον ρόλο του ασθενούς και απαντά με φυσικό, συνομιλητικό τρόπο. Στη συνέχεια, η απόδοση του μοντέλου αξιολογείται από έναν άλλο «πράκτορα» AI, ενώ οι ειδικοί αξιολογούν την ακρίβεια της διάγνωσης και τη συμμόρφωση με τις προτροπές.
«Η ανάγκη για ένα ρεαλιστικό πλαίσιο δοκιμών είναι πιο επιτακτική από ποτέ» σημείωσε η Shreya Johri, συγγραφέας της μελέτης και διδακτορική φοιτήτρια στο Χάρβαρντ. «Χρειαζόμαστε ένα εργαλείο, το οποίο θα μπορεί να προβλέψει την πραγματική απόδοση ενός μοντέλου σε περιβάλλοντα καθημερινής ιατρικής πρακτικής».
Ηθικές και τεχνικές προκλήσεις
Εκτός από τις τεχνικές προκλήσεις, οι επιστήμονες επισημαίνουν την ανάγκη για ηθική εφαρμογή. Σύμφωνα με τη Roxana Daneshjou, επίκουρη καθηγήτρια στο Πανεπιστήμιο του Στάνφορντ: «Η κλινική πρακτική απαιτεί μοντέλα που να ενισχύουν την αποτελεσματικότητα και την ηθική στην υγειονομική περίθαλψη. Το CRAFT-MD βοηθά στη διαμόρφωση ενός πιο ασφαλούς και αξιόπιστου μέλλοντος για την τεχνητή νοημοσύνη».
Συστάσεις για το μέλλον
Η ερευνητική ομάδα προτείνει τα εξής για τη βελτίωση της απόδοσης της τεχνητής νοημοσύνης:
- Αξιολόγηση με ρεαλιστικές συνομιλίες: Χρήση ανοιχτού τύπου ερωτήσεων που αντικατοπτρίζουν την πολυπλοκότητα της κλινικής πρακτικής.
- Εκπαίδευση σε δυναμικά σενάρια: Σχεδιασμός εργαλείων που μπορούν να διαχειριστούν διάσπαρτες πληροφορίες.
- Ολοκληρωμένη προσέγγιση δεδομένων: Ανάπτυξη μοντέλων που συνδυάζουν κείμενο και μη κειμενικά δεδομένα, όπως εικόνες και διαγνωστικές εξετάσεις.
- Αξιολόγηση από Τ.Ν. και ανθρώπους ειδικούς: Η συνδυαστική αξιολόγηση μπορεί να εξασφαλίσει την ποιότητα και την αποτελεσματικότητα.
Προοπτικές και περιορισμοί
Παρότι το CRAFT-MD προσφέρει ένα σημαντικό βήμα προόδου, οι ερευνητές αναγνωρίζουν ότι θα πρέπει να ενημερώνεται διαρκώς. Η ενσωμάτωση μη λεκτικών ενδείξεων, όπως ο τόνος της φωνής και οι εκφράσεις του προσώπου, αποτελεί έναν από τους στόχους του μέλλοντος.
Καθώς η τεχνητή νοημοσύνη γίνεται αναπόσπαστο μέρος της υγειονομικής περίθαλψης, η ισορροπία μεταξύ καινοτομίας και ηθικής παραμένει κρίσιμη. Το ταξίδι προς την πλήρη ενσωμάτωση αυτών των τεχνολογιών μόλις ξεκίνησε, αλλά οι βάσεις που τίθενται τώρα θα καθορίσουν την πορεία για τις επόμενες δεκαετίες.