ChatGPT: Έρευνα του Stanford δείχνει ότι το επίπεδο των απαντήσεών του πέφτει κατακόρυφα

Η εξήγηση στα παράπονα των χρηστών ότι η τεχνητή νοημοσύνη γίνεται πιο «χαζή»

23·07·2023 13:15 4 σχόλια

Newsroom

Το ChatGPT έχει μπει για τα καλά στην καθημερινότητα του κόσμου, με πλήθος χρηστών να κάνει παράπονα για το επίπεδο των απαντήσεων του, καθώς δεν είναι λίγοι αυτοί που θεωρούν ότι με το πέρασμα των χρόνων γίνεται πιο «χαζό».

Για το θέμα τοποθετήθηκε ο Peter Welinder, υψηλόβαθμο στέλεχος της OpenAI, μέσω ανάρτησής του στο Twitter:

«Όχι, δεν κάναμε το GPT-4 πιο ηλίθιο. Ακριβώς το αντίθετο: κάνουμε κάθε νέα έκδοση πιο έξυπνη από την προηγούμενη. Η τρέχουσα υπόθεση είναι η εξής: Όταν το χρησιμοποιείτε περισσότερο, αρχίζετε να παρατηρείτε προβλήματα που δεν είχατε δει πριν».

No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023

Ο Welinder ζήτησε παραδείγματα για να τα μελετήσει η εταιρεία, με το Stanford και το Πανεπιστήμιο Berkeley να τα παρουσιάζουν σε σχετική έρευνα που έκαναν.

Συγκεκριμένα, τρείς αναγνωρισμένοι ακαδημαϊκοί, οι Matei Zaharia, Lingjiao Chen και James Zou αποφάσισαν να ερευνήσουν αν όντως υπήρξε υποβάθμιση και να βρουν τρόπο να προσδιορίσουν πόσο μεγάλη ή μικρή είναι η αλλαγή. Πράγματι, λοιπόν, η επιστημονική τους έρευνα κατέληξε πως υπήρξε βουτιά -και σε πολλές περιπτώσεις τεράστια- στην ποιότητα των απαντήσεων του ChatGPT.

Περνώντας σε λεπτομέρειες, ανακαλύφθηκαν ακραίες αποκλίσεις ακόμη και σε φαινομενικά απλά ερωτήματα. Για παράδειγμα, οι ερευνητές δοκίμασαν την ερώτηση «είναι αυτός ο αριθμός πρώτος;» στο πιο ισχυρό GPT-4 μοντέλο που είναι διαθέσιμο επί πληρωμή. Από τον Μάρτιο που η AI απαντούσε με ποσοστό επιτυχίας 97.6%, τον Ιούνιο απαντούσε με ποσοστό επιτυχίας 2.4%. Αυτό σημαίνει πως έκανε σχεδόν κάθε φορά λάθος, σε μια ερώτηση που παλιά απάνταγε σχεδόν πάντα σωστά! Παραδόξως, στο ίδιο ερώτημα το θεωρητικά χειρότερο GPT-3.5 μοντέλο έγινε καλύτερο με την πάροδο του χρόνου.

Δυστυχώς για τους προγραμματιστές που χρησιμοποιούσαν το ChatGPT για βοήθεια, οι δυνατότητες παραγωγής εκτελέσιμου κώδικα έπεσαν κατακόρυφα και στα δύο μοντέλα. Απ’ εκεί που το 52% του κώδικα που παρήγαγε το GPT-4 το Μάρτιο ήταν άμεσα εκτελέσιμο, πλέον το ποσοστό αυτό έχει πέσει στο 10%. Παράλληλα, από το 22% του GPT-3.5, το ποσοστό έπεσε σε μόλις 2%.

Παρακάτω μπορείτε να δείτε ένα γράφημα που συνοψίζει τα ευρήματα των επιστημόνων όσον αφορά την επίλυση μαθηματικών προβλημάτων, την απάντηση σε ευαίσθητες ερωτήσεις, τη δημιουργία κώδικα και τον οπτικό συλλογισμό.

Φυσικά, μιας και οι AIs αρχίζουν να παίζουν ολοένα και πιο έντονο ρόλο στις ζωές μας, με την Google για παράδειγμα να ετοιμάζεται να αλλάξει οριστικά τη μηχανή αναζήτησής της, η ανακάλυψη αυτή είναι εξαιρετικά σημαντική.

Όπως επισημαίνουν και οι ερευνητές, είναι πολύ πιθανό πως πληροφορίες που έχουν παραχθεί από AI θα επηρεάσουν με κάποιον τρόπο τη ζωή σας, οπότε είναι σίγουρα ανησυχητικό αν η ποιότητά τους υποβαθμίζεται με την πάροδο του χρόνου.