ΤΕΧΝΟΛΟΓΙΑ #chatbot #Microsoft #τεχνητή νοημοσύνη

Δέκα διαπιστώσεις για το GPT-4: Εντυπωσιακό, αλλά με ελαττώματα

Η νέα έκδοση του ChatGPT είναι σαφώς βελτιωμένη όμως απέχει από όρια σύγκρισης με την ανθρώπινη νοημοσύνη

17·03·2023 18:01

H νέα έκδοση του ChatGPT, του chatbot που τάραξε τα νερά και άνοιξε μια νέα σελίδα στη βιομηχανία της τεχνητής νοημοσύνης, παρουσίασε η εταιρεία του OpenAI, που χρηματοδοτείται από τη Microsoft.

Το GPT-4, είναι ασφαλώς βελτιωμένο σε σχέση με τον προκάτοχό του (GPT-3,5) αλλά συνεχίζει να παρουσιάζει ορισμένα προβλήματα. Ειδικοί, σημειώνουν στους New York Times, πως εντυπωσιάζει με τις ιατρικές συμβουλές του, πως μπορεί να λέει «αστεία» που είναι σχεδόν αστεία, όμως συνεχίζει να παρουσιάζει μερικά από τα συνηθισμένα λάθη, που προκάλεσαν προβληματισμό και στην πρώτη παρουσίαση της νέας τεχνολογίας.

Εν τέλει, το GPT-4 (ο «κινητήρας» του ChatGPT) αν και αποτελεί ένα σημαντικό επίτευγμα, απέχει πολύ από το να βρεθεί στα όρια για να συγκριθεί με ανθρώπινη νοημοσύνη.

OpenAI released an update of the technology behind its chatbot, ChatGPT, that captivated the tech industry four months ago. It is an expert on an array of subjects, our tech correspondent writes, but problems remain. https://t.co/5O4AH9RUT2
— The New York Times (@nytimes) March 14, 2023

Έχε μάθει να είναι πιο συγκεκριμένο

Ο Κρις Νίκολσον, εμπειρογνώμονας τεχνητής νοημοσύνης και συνεργάτης με την εταιρεία «Page One Ventures», χρησιμοποίησε το GPT-4, λέγοντάς του πως μιλάει αγγλικά αλλά δεν γνωρίζει καθόλου ισπανικά και θα ήθελε να μάθει τα βασικά. Το bot του έδωσε ένα αναλυτικό και καλά οργανωμένο αρχείο λέξεων, ενώ ταυτόχρονα του παρείχε ένα ευρύ φάσμα τεχνικών για την εκμάθηση και την απομνημόνευση των ισπανικών λέξεων.

Σημειώνεται ο Κρίς Νίκολσον είχε ζητήσει αντίστοιχη βοήθεια από την προηγούμενη έκδοση του ChatGPT, η οποία αν και του παρείχε επίσης ένα αναλυτικό αρχείο λέξεων, οι προτάσεις της ήταν περισσότερο γενικές και λιγότερο χρήσιμες. Ακολουθεί ένα μικρό μέρος της επικοινωνίας που είχε με το GPT-4:

Έχει βελτιώσει σημαντικά την ακρίβειά του

Ο Όρεν Ετζιόνι, ερευνητής τεχνητής νοημοσύνης και καθηγητής, δοκίμασε για πρώτη φορά το νέο bot, κάνοντας μια απλή ερώτηση: «Ποια είναι η σχέση μεταξύ των Ορέν Ετζιόνι και Έλι Ετζιόνι;» Το bot απάντησε σωστά. Ακολουθούν οι απαντήσεις που έδωσε η τελευταία έκδοση του ChatGPT και η προηγούμενη. Η GPT-3.5, σε αντίθεση με την GPT-4, έδινε πάντα λανθασμένη απάντηση. Το γεγονός πως το GPT-4 δίνει σωστή απάντηση υποδηλώνει πως το νέο chatbot διευρύνει σημαντικά το φάσμα γνώσεων του.

Ωστόσο εξακολουθεί να κάνει λάθη. Συγκεκριμένα ανέφερε πως «ο Όρεν Ετζιόνι είναι επιστήμονας υπολογιστών και διευθύνων σύμβουλος του Allen Institute for Artificial Intelligence (AI2), ενώ ο Έλι Ετζιόνι είναι επιχειρηματίας». Το chatbot, η εκπαίδευση του οποίου ολοκληρώθηκε τον Αύγουστο, δεν ανέφερε πως ο Όρεν Ετζιόνι είχε πρόσφατα παραιτηθεί από τη θέση του διευθύνοντος συμβούλου του Ινστιτούτου Allen.

Μπορεί να περιγράψει εικόνες με εντυπωσιακή λεπτομέρεια

Η ικανότητα του GPT-4 να ανταποκρίνεται σε εικόνες καθώς και σε κείμενο έχει βελτιωθεί εντυπωσιακά. Ο Κρέγκ Μπρόκμαν, πρόεδρος και συνιδρυτής του OpenAI, έδειξε πώς το σύστημα θα μπορούσε να περιγράψει μια εικόνα από το διαστημικό τηλεσκόπιο Hubble με εντυπωσιακές λεπτομέρειες.

Μπορεί επίσης να απαντήσει σε ερωτήσεις σχετικά με μια εικόνα. Για παράδειγμα εάν του δοθεί μια φωτογραφία από το εσωτερικό ενός ψυγείου, μπορεί να προτείνει μερικά γεύματα για να φτιάξετε από αυτά που έχετε στη διάθεσή σας. Δίνοντάς του την παρακάτω φωτογραφία απάντησε:

«Με βάση τα αντικείμενα που είναι ορατά στο ψυγείο, ακολουθούν μερικές ιδέες για γεύματα:

1) Παρφέ γιαουρτιού: Στρώστε γιαούρτι, φράουλες και βατόμουρα σε ένα μπολ ή βάζο. Συμπληρώστε με μέλι ή ξηρούς καρπούς για πρόσθετη υφή και γεύση.
2) Wrap καρότου και χούμους: Απλώστε χούμους σε μια τορτίγια ή wrap. Συμπληρώστε με ψιλοκομμένα καρότα και οποιαδήποτε άλλα λαχανικά επιθυμείτε. Τυλίξτε και απολαύστε!»

Έχει σοβαρές και εξειδικευμένες γνώσεις

Ένα απόγευμα, ο Ανίλ Γκεχί, αναπληρωτής καθηγητής ιατρικής και καρδιολόγος στο Πανεπιστήμιο της Βόρειας Καρολίνας, περιέγραψε στο chatbot το ιατρικό ιστορικό ενός ασθενούς που είχε δει μια μέρα νωρίτερα, συμπεριλαμβανομένων των επιπλοκών που είχε ο ασθενής μετά την εισαγωγή του στο νοσοκομείο. Η περιγραφή περιείχε αρκετούς ιατρικούς όρους που ένας μη εξειδικευμένος δεν θα αναγνώριζε.

Ο γιατρός ρώτησε το GPT-4 τι θα έπρεπε να κάνει με τον ασθενή. Η απάντηση, όπως αναφέρει ο ίδιος δρ. Γκεχί, ήταν η «τέλεια απάντηση». «Κάναμε ακριβώς αυτό στον ασθενή», τόνισε. Μάλιστα ο γιατρός δοκίμασε να παρουσιάσει και άλλα ιατρικά σενάρια και το bot ήταν εντυπωσιακά εύστοχο, δίνοντας πάντα τις σωστές απαντήσεις.

Σίγουρα χρειάζονται περισσότερες έρευνες για να διαπιστωθεί η ορθότητα των απαντήσεών του σε ένα ευρύ φάσμα πιθανών περιστατικών, ωστόσο τα μέχρι τώρα επιτεύγματά του είναι εντυπωσιακά και οι ειδικοί εκτιμούν πως θα μπορούσε να επιδείξει ανάλογες εξειδικευμένες γνώσεις σε πολλούς τομείς, από τον προγραμματισμό υπολογιστών έως τη λογιστική.

Μπορεί να δώσει εντυπωσιακές περιλήψεις κειμένων

Όταν δόθηκε στο GPT-4 ένα μεγάλο κείμενο των New York Times, κατάφερε να παρουσιάσει μια ακριβής περίληψη. Το έκανε με μεγάλη επιτυχία κάθε φορά που του δινόταν κείμενο. Μάλιστα εάν προστεθεί στην περίληψή του έστω και μια πρόταση και ερωτηθεί εάν η συγκεκριμένη περίληψη είναι ακριβής θα εντοπίσει και θα επισημάνει ως λάθος την πρόταση του προστέθηκε.

«Για να κάνει μια σύνοψη υψηλής ποιότητας και μια σύγκριση εξίσου υψηλής ποιότητας, πρέπει να έχει ένα υψηλό επίπεδο κατανόησης του κειμένου και μια ικανότητα να διατυπώσει αυτή την κατανόηση», υπογράμμισε ο Όρεν Ετζιόνι και πρόσθεσε: «Αυτή είναι μια προηγμένη μορφή νοημοσύνης».

Αναπτύσσει την αίσθηση του χιούμορ… ή τουλάχιστον στο περίπου

Ο Όρεν Ετζιόνι ζήτησε από το νέο bot «ένα αστείο για την τραγουδίστρια Madonna». Η απάντηση τον εντυπωσίασε και επίσης τον έκανε να γελάσει, κατά κάποιο τρόπο: «Γιατί η Madonna σπούδασε γεωμετρία; Για να μάθει να ποζάρει από κάθε γωνία».

Είναι γεγονός πως η νέα έκδοση του ChatGPT εξακολουθεί να δυσκολεύεται να απαντήσει κάτι περισσότερο από τα τυπικά «αστεία». Αλλά οριακά, θα μπορούσε να ειπωθεί, πως είναι πιο αστείο από τον προκάτοχό του.

Μπορεί να συλλογιστεί… Μέχρι ένα σημείο

Ο Δρ Ετζιόνι έθεσε στο GPT-4 έναν γρίφο. «Φαντάσου μια απείρως φαρδιά πόρτα. Τι είναι πιο πιθανό να χωρέσει μέσα από αυτό. Ένα στρατιωτικό τανκ ή ένα αυτοκίνητο;». Η απάντηση που έδωσε και η νέα και η προηγούμενη έκδοση δείχνουν σημάδια συλλογισμού. Ωστόσο οι συλλογιστικές ικανότητές του καταρρέουν σε πολλές καταστάσεις. Μάλιστα η προηγούμενη έκδοση του ChatGPT φαίνεται πως χειρίστηκε καλύτερα τον γρίφο, συμπεριλαμβάνοντας και το ζήτημα του ύψους και του μήκους, που ήταν και το «κλειδί» στη σωστή απάντηση.

«Δεδομένου ότι η πόρτα είναι απείρως φαρδιά, τόσο το στρατιωτικό τανκ όσο και το αυτοκίνητο μπορούν να χωρέσουν μέσα από αυτό χωρίς προβλήματα. Το πλάτος της πόρτας δεν είναι περιοριστικός παράγοντας, επομένως κάθε αντικείμενο οποιουδήποτε μεγέθους, όσο μεγάλο ή μικρό κι αν είναι, μπορεί να περάσει μέσα από αυτό. Ωστόσο, το ύψος και το μήκος των αντικειμένων θα μπορούσαν ενδεχομένως να αποτελέσουν περιοριστικό παράγοντα εάν η πόρτα έχει πεπερασμένο ύψος ή μήκος».

Μπορεί να ανταποκριθεί σε τυποποιημένα τεστ

Σύμφωνα με την OpenAI, τη εταιρεία που δημιούργησε το ChatGPT, το σύστημα θα μπορούσε να συμπεριληφθεί μεταξύ του 10% των κορυφαίων μαθητών στο Uniform Bar Exam, ένα τεστ που πληροί τις προϋποθέσεις για δικηγόρους σε 41 πολιτείες και περιοχές των ΗΠΑ. Μπορεί επίσης να πετύχει βαθμολογία 1.300 πόντων (στους 1.600) στο SAT (διαγωνίσματα για εισαγωγή στα κολέγια στις ΗΠΑ), αλλά και το απόλυτο «πέντε στα πέντε» στις εξετάσεις της δευτεροβάθμιας εκπαίδευσης και μάλιστα για προχωρημένους μαθητές σε βιολογία, λογισμό, μακροοικονομία, ψυχολογία, στατιστική και ιστορία.

Αυτός ο ισχυρισμός κατέρρευσε στα δοκιμαστικά των προηγούμενων εκδόσεων. Σύμφωνα με τους New York Times, απέτυχαν στο Uniform Bar Exam, ενώ επιπλέον δεν είχαν τόσο υψηλή βαθμολογία στα τεστ για προχωρημένους μαθητές. Η τελευταία έκδοση φαίνεται να τα πηγαίνει καλύτερα, τουλάχιστον για αρχή…

Ο Κρέγκ Μπρόκμαν, πρόεδρος και συνιδρυτής του OpenAI, πρόσφατα, θέλοντας να επιδείξει την «αναβάθμιση» του bot, του έθεσε μια σχετικά δύσκολη ερώτηση στο πλαίσιο του Uniform Bar Exam. Η απάντηση ήταν σωστή αλλά δυσνόητη καθώς ήταν γεμάτη νομικά. Έτσι ο Μπρόκμαν ζήτησε από το bot να εξηγήσει την απάντηση με πιο απλό τρόπο, ώστε να μπορεί να την καταλάβει και ένας μη εξειδικευμένος. Το έκανε και αυτό.

Δεν είναι καλό στο να συζητάει για το μέλλον

Το GPT – 4 φαίνεται ιδιαίτερα ικανό να μιλάει για πράγματα που έχουν ήδη συμβεί, ωστόσο παρουσιάζει ιδιαίτερες δυσκολίες όταν καλείται να συζητήσει για το μέλλον. Συνήθως αναπαράγει αυτό που είπαν άλλοι, αντί να δημιουργεί δικές του νέες εικασίες. Για παράδειγμα ο Δρ Ετζιόνι ρώτησε το νέο bot, «Ποια είναι τα σημαντικά προβλήματα που πρέπει να λυθούν στην έρευνα για την N.L.P. την επόμενη δεκαετία;» (σ.σ. αναφερόταν στην έρευνα «επεξεργασίας φυσικής γλώσσας NLP» που οδηγεί στην ανάπτυξη συστημάτων όπως το ChatGPT). Το GPT-4 δεν κατάφερε να διατυπώσει εντελώς νέες ιδέες.

Και εξακολουθεί να έχει «παραισθήσεις»

Τέλος και η νέα έκδοση του ChatGPT εξακολουθεί να δημιουργεί πράγματα που δεν υπάρχουν…. Ονομάζεται «ψευδαίσθηση» και φαίνεται να είναι ένα πρόβλημα που στοιχειώνει όλα τα κορυφαία chatbot. Επειδή τα συστήματα αδυνατούν να κατανοήσουν τί είναι αληθές και τί όχι, συχνά δημιουργούν κείμενα που είναι εντελώς ψευδή. Όταν για παράδειγμα ρωτήθηκε για ιστοσελίδες που αναφέρονται σε τελευταίες έρευνες για τον καρκίνο, σε κάποιες περιπτώσεις δημιούργησε διαδικτυακές διευθύνσεις που δεν υπήρχαν.