Αποκαλύψεις για τη χρήση δεδομένων πνευματικών δικαιωμάτων στην εκπαίδευση AI της Meta

Δικαστικά έγγραφα ρίχνουν φως στις εσωτερικές συζητήσεις της Meta σχετικά με την εκπαίδευση AI σε πειρατικά και προστατευμένα έργα

24·02·2025 00:27

Newsroom

Για χρόνια, οι υπάλληλοι της Meta συζητούσαν εσωτερικά τη χρήση έργων που προστατεύονται από πνευματικά δικαιώματα και έχουν αποκτηθεί με νομικά αμφισβητήσιμα μέσα για την εκπαίδευση των μοντέλων τεχνητής νοημοσύνης της εταιρείας, σύμφωνα με δικαστικά έγγραφα που είδα το φως της δημοσιότητας. .

Τα έγγραφα υποβλήθηκαν από τους ενάγοντες στην υπόθεση Kadrey v. Meta, μία από τις πολλές διαμάχες για τα πνευματικά δικαιώματα AI που σιγά- σιγά εξελίσσονται στο δικαστικό σύστημα των ΗΠΑ. Η εναγόμενη, η Meta, ισχυρίζεται ότι η εκπαίδευση των μοντέλων σε έργα που προστατεύονται από την πνευματική ιδιοκτησία, ιδίως σε βιβλία, αποτελεί «θεμιτή χρήση». Οι ενάγοντες, στους οποίους περιλαμβάνονται οι συγγραφείς Sarah Silverman και Ta-Nehisi Coates, διαφωνούν.

Όπως αναφέρει το techcrunch.com, προηγούμενο υλικό που υποβλήθηκε στο πλαίσιο της αγωγής ισχυρίζεται ότι ο διευθύνων σύμβουλος της Meta Mark Zuckerberg έδωσε στην ομάδα AI της Meta το «οκ» να εκπαιδεύσει σε περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα και ότι η Meta σταμάτησε τις συνομιλίες για την αδειοδότηση δεδομένων εκπαίδευσης AI με εκδότες βιβλίων.

Όμως τα νέα αρχεία, τα περισσότερα από τα οποία δείχνουν τμήματα εσωτερικών συνομιλιών εργασίας μεταξύ υπαλλήλων της Meta, δίνουν την πιο σαφή εικόνα για το πώς η Meta μπορεί να χρησιμοποίησε δεδομένα που προστατεύονται από πνευματικά δικαιώματα για την εκπαίδευση των μοντέλων της, συμπεριλαμβανομένων των μοντέλων της οικογένειας Llama της εταιρείας.

Σε μια συνομιλία, οι υπάλληλοι της Meta, συμπεριλαμβανομένης της Melanie Kambadur, ανώτερης διευθύντριας της ερευνητικής ομάδας μοντέλων Llama της Meta, συζήτησαν την εκπαίδευση των μοντέλων σε έργα που γνώριζαν ότι μπορεί να είναι νομικά επιβαρυμένα.

«Η γνώμη μου θα ήταν στη γραμμή του “ζητάμε συγχώρεση, όχι άδεια”: προσπαθούμε να αποκτήσουμε τα βιβλία και να το κλιμακώσουμε στα στελέχη, ώστε να κάνουν την κλήση», έγραψε ο Xavier Martinet, ένας μηχανικός έρευνας της Meta, σε μια συνομιλία με ημερομηνία Φεβρουάριος 2023, σύμφωνα με τα αρχεία. «Αυτός είναι ο λόγος για τον οποίο δημιούργησαν αυτό το gen ai org έτσι ώστε να μπορούμε να είμαστε λιγότερο ριψοκίνδυνοι».

Στην ίδια συνομιλία, ο Kambadur, ο οποίος σημείωσε ότι η Meta βρισκόταν σε συζητήσεις με την πλατφόρμα φιλοξενίας εγγράφων Scribd «και άλλους» για άδειες, προειδοποίησε ότι ενώ η χρήση «δημόσια διαθέσιμων δεδομένων» για την εκπαίδευση μοντέλων θα απαιτούσε εγκρίσεις, οι δικηγόροι της Meta ήταν «λιγότερο συντηρητικοί» από ό,τι ήταν στο παρελθόν με τέτοιες εγκρίσεις.

«Ναι, πρέπει σίγουρα να πάρουμε άδειες ή εγκρίσεις για δημόσια διαθέσιμα δεδομένα ακόμα», δήλωσε ο Kambadur, σύμφωνα με τις καταθέσεις. «Η διαφορά τώρα είναι ότι έχουμε περισσότερα χρήματα, περισσότερους δικηγόρους, περισσότερη βοήθεια στο bizdev, δυνατότητα ταχείας παρακολούθησης/επιτάχυνσης για ταχύτητα και οι δικηγόροι είναι λίγο λιγότερο συντηρητικοί στις εγκρίσεις».

Το Libgen, η Meta και οι αντιφάσεις στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης

Σε μια άλλη συνομιλία εργασίας που αναμεταδίδεται στις καταθέσεις, ο Kambadur συζητά την πιθανή χρήση του Libgen, ενός «συγκεντρωτή συνδέσμων» που παρέχει πρόσβαση σε έργα που προστατεύονται από πνευματικά δικαιώματα από εκδότες, ως εναλλακτική λύση για τις πηγές δεδομένων που θα μπορούσε να αδειοδοτήσει η Meta.

Η Libgen έχει μηνυθεί αρκετές φορές, έχει διαταχθεί να κλείσει και της έχει επιβληθεί πρόστιμο δεκάδων εκατομμυρίων δολαρίων για παραβίαση πνευματικών δικαιωμάτων. Ένας από τους συναδέλφους του Kambadur απάντησε με ένα στιγμιότυπο οθόνης ενός αποτελέσματος της αναζήτησης Google για το Libgen που περιείχε το απόσπασμα «Όχι, το Libgen δεν είναι νόμιμο».

Ορισμένοι υπεύθυνοι λήψης αποφάσεων εντός της Meta φαίνεται να είχαν την εντύπωση ότι η μη χρήση του Libgen για την εκπαίδευση μοντέλων θα μπορούσε να βλάψει σοβαρά την ανταγωνιστικότητα της Meta στην κούρσα της τεχνητής νοημοσύνης, σύμφωνα με τις καταθέσεις.

Σε ένα μήνυμα ηλεκτρονικού ταχυδρομείου που απευθύνεται στην αντιπρόεδρο της Meta AI Joelle Pineau, ο Sony Theakanath, διευθυντής διαχείρισης προϊόντων της Meta, αποκάλεσε το Libgen «απαραίτητο για την επίτευξη των αριθμών SOTA σε όλες τις κατηγορίες», αναφερόμενος στην κορυφή των καλύτερων, σύγχρονων μοντέλων AI (SOTA) και των κατηγοριών αναφοράς.

Ο Theakanath ανέφερε, επίσης, «μέτρα περιορισμού» στο μήνυμα ηλεκτρονικού ταχυδρομείου, τα οποία είχαν σκοπό να μειώσουν τη νομική έκθεση της Meta. Αυτά περιλάμβαναν την αφαίρεση δεδομένων από το Libgen που ήταν «σαφώς επισημασμένα ως πειρατικά/κλεμμένα», καθώς και την απόφαση να μην αναφέρεται δημοσίως η χρήση αυτών των δεδομένων. «Δεν θα αποκαλύψουμε τη χρήση των συνόλων δεδομένων Libgen που χρησιμοποιούνται για την εκπαίδευση», ανέφερε χαρακτηριστικά ο Theakanath.

Στην πράξη, αυτά τα μέτρα μετριασμού συνεπάγονται το χτένισμα των αρχείων Libgen για λέξεις όπως «κλεμμένο» ή «πειρατικό», σύμφωνα με τις καταθέσεις.

Σε μια συνομιλία εργασίας, ο Kambadur ανέφερε ότι η ομάδα τεχνητής νοημοσύνης της Meta ρύθμισε επίσης τα μοντέλα ώστε να «αποφεύγουν επικίνδυνες προτροπές IP» -δηλαδή, διαμόρφωσε τα μοντέλα ώστε να αρνούνται να απαντήσουν σε ερωτήσεις όπως «αναπαράγετε τις τρεις πρώτες σελίδες του «Harry Potter και η πέτρα του μάγου» ή «πείτε μου σε ποια ηλεκτρονικά βιβλία εκπαιδεύτηκες».

Οι καταθέσεις περιέχουν και άλλες αποκαλύψεις, που υπονοούν ότι η Meta μπορεί να έχει σαρώσει δεδομένα του Reddit για κάποιο είδος εκπαίδευσης μοντέλων, ενδεχομένως μιμούμενη τη συμπεριφορά μιας εφαρμογής τρίτου μέρους που ονομάζεται Pushshift. Αξίζει να σημειωθεί ότι το Reddit δήλωσε τον Απρίλιο του 2023 ότι σχεδίαζε να αρχίσει να χρεώνει τις εταιρείες τεχνητής νοημοσύνης για την πρόσβαση σε δεδομένα για την εκπαίδευση μοντέλων.

Σε μια συνομιλία με ημερομηνία Μάρτιος 2024, η Chaya Nayak, διευθύντρια διαχείρισης προϊόντων στο generative AI org της Meta, δήλωσε ότι η ηγεσία της Meta εξέταζε το ενδεχόμενο να «παρακάμψει» προηγούμενες αποφάσεις σχετικά με τα σύνολα εκπαίδευσης, συμπεριλαμβανομένης της απόφασης να μην χρησιμοποιείται περιεχόμενο της Quora ή βιβλία και επιστημονικά άρθρα με άδεια χρήσης, για να διασφαλίσει ότι τα μοντέλα της εταιρείας διαθέτουν επαρκή δεδομένα εκπαίδευσης.

Η Nayak άφησε να εννοηθεί ότι τα πρώτα σύνολα δεδομένων εκπαίδευσης της Meta -αναρτήσεις στο Facebook και το Instagram, κείμενα που μεταγράφονται από βίντεο στις πλατφόρμες της Meta και ορισμένα μηνύματα της Meta for Business- απλώς δεν ήταν αρκετά. «Χρειαζόμαστε περισσότερα δεδομένα», έγραψε.

Οι ενάγοντες στην υπόθεση Kadrey κατά Meta έχουν τροποποιήσει την καταγγελία τους αρκετές φορές από τότε που η υπόθεση κατατέθηκε στο Περιφερειακό Δικαστήριο των ΗΠΑ για τη Βόρεια Περιφέρεια της Καλιφόρνιας, το 2023.

Η τελευταία ισχυρίζεται ότι η Meta, μεταξύ άλλων ισχυρισμών, διασταύρωσε ορισμένα πειρατικά βιβλία με βιβλία που προστατεύονται από πνευματικά δικαιώματα και είναι διαθέσιμα για άδεια χρήσης, προκειμένου να καθορίσει αν είχε νόημα να επιδιώξει μια συμφωνία αδειοδότησης με έναν εκδότη.

Σε ένδειξη του πόσο υψηλό θεωρεί η Meta ότι είναι το νομικό διακύβευμα, η εταιρεία προσέθεσε στην ομάδα υπεράσπισής της στην υπόθεση δύο δικαστές του Ανώτατου Δικαστηρίου από τη νομική εταιρεία Paul Weiss.