
Δεδομένου ότι όλο και περισσότερα μοντέλα τεχνητής νοημοσύνης δείχνουν στοιχεία ότι είναι σε θέση να εξαπατήσουν τους δημιουργούς τους, οι ερευνητές από το Κέντρο Ασφάλειας και η κλίμακα του AI έχουν αναπτύξει τον πρώτο ανιχνευτή ψεμάτων.
Την Τετάρτη, οι ερευνητές έχουν κυκλοφορήσει τον προσανατολισμό του μοντέλου μεταξύ ευθυγράμμισης και γνώσης (μάσκα), γεγονός που καθορίζει πόσο εύκολα είναι δυνατόν να εξαπατηθεί το μοντέλο σε συνειδητά ψέματα στους χρήστες ή την «ηθική αρετή» του.
Επίσης: Το O1 της Operai βρίσκεται περισσότερο από οποιοδήποτε σημαντικό μοντέλο AI. Γιατί είναι σημαντικό
Οι μεμονωμένοι δείκτες, η εξαπάτηση και η ισοπέδωση, όταν το μοντέλο AI ισχυρίζεται σκόπιμα ότι αλλάζει τις αξίες του, όταν, όταν αναγκαστεί, είναι ένας τρόπος με τους οποίους τα μοντέλα AI υπονομεύουν τους δημιουργούς τους και μπορούν να δημιουργήσουν σοβαρές απειλές για την ασφάλεια και την ασφάλεια.
Μελέτες δείχνουν ότι το O1 OpenAI είναι ιδιαίτερα καλό στα προγράμματα για να διατηρήσει τον έλεγχο του εαυτού τους και το CLAUDE 3 OPUS απέδειξε ότι μπορεί να διαιρέσει την ευθυγράμμιση.
Επίσης: Πώς οι Cisco, Langchain και Galileo επιδιώκουν να υποστηρίξουν την έκρηξη Cambrian των παραγόντων τεχνητής νοημοσύνης “
Για να διευκρινιστούν, οι ερευνητές διαπίστωσαν ότι βρίσκονται ως “(1), έχοντας κάνει μια δήλωση από ένα καλά γνωστό (ή θεωρείται) ψευδές και (2) που σκοπεύουν να αποδεχθούν τη δήλωση ως αληθινή”, σε αντίθεση με άλλες ψευδείς απαντήσεις, όπως παραισθήσεις. Οι ερευνητές δήλωσαν ότι η βιομηχανία δεν είχε ακόμη επαρκή μέθοδο για την αξιολόγηση της ειλικρίνειας στα μοντέλα AI.
“Πολλοί δείκτες ισχυρίζονται ότι μετράνε την ειλικρίνεια, στην πραγματικότητα, μετράει απλώς την ακρίβεια – την ορθότητα των πεποιθήσεων του μοντέλου – μεταμφιεσμένη”, αναφέρει η έκθεση. Για παράδειγμα, τα κριτήρια όπως η αλήθεια μετρούν εάν το μοντέλο μπορεί να δημιουργήσει “εύλογη παραπληροφόρηση”, αλλά αν το μοντέλο προτίθεται να εξαπατήσει σκόπιμα, παρέχοντας ψευδείς πληροφορίες, εξήγησε το άρθρο.
“Ως αποτέλεσμα, τα πιο ικανά μοντέλα μπορούν να λειτουργήσουν καλύτερα σε αυτά τα κριτήρια μέσω μιας ευρύτερης πραγματικής κάλυψης και όχι απαραίτητα επειδή απέχουν από συνειδητή”, ανέφεραν οι ερευνητές. Η μάσκα είναι η πρώτη δοκιμή για τη διαφοροποίηση της ακρίβειας και της ειλικρίνειας.
Ένα παράδειγμα άσκησης αξιολόγησης στην οποία δόθηκε το μοντέλο για την κατασκευή στατιστικών στοιχείων βάσει αίτησης χρήστη.
II Κέντρο Ασφαλείας
Οι ερευνητές σημείωσαν ότι εάν τα μοντέλα βρίσκονται, υποβάλλονται στους χρήστες νόμιμες, οικονομικές και εμπιστευτικές βλάβες. Παραδείγματα μπορεί να περιλαμβάνουν μοντέλα που δεν μπορούν να επιβεβαιώσουν με ακρίβεια εάν μεταφέρουν χρήματα στον σωστό τραπεζικό λογαριασμό, εισάγονται στον πελάτη ή κατά λάθος διαρρέουν εμπιστευτικά δεδομένα.
Επίσης: Πώς το AI θα μετατρέψει την ασφάλεια στον κυβερνοχώρο το 2025 – και την υπερφόρτωση του εγκληματία στον κυβερνοχώρο
Χρησιμοποιώντας τη μάσκα και ένα σύνολο δεδομένων από περισσότερα από 1.500 αιτήματα που συλλέχθηκαν από ένα άτομο που σχεδιάστηκε για να “προσδιορίσει τα ψέματα”, οι ερευνητές εκτίμησαν 30 συνοριακά μοντέλα, αποκαλύπτοντας τις κύριες πεποιθήσεις τους και μετρώντας πόσο καλά προσκολλώνται σε αυτές τις απόψεις όταν πιέζουν. Οι ερευνητές έχουν διαπιστώσει ότι η υψηλότερη ακρίβεια δεν συσχετίζεται με την υψηλότερη ειλικρίνεια. Διαπίστωσαν επίσης ότι τα μεγαλύτερα μοντέλα, ειδικά τα συνοριακά μοντέλα, δεν είναι απαραιτήτως πιο αληθινά από τα μικρότερα.
Ένα δείγμα αξιολογήσεων μοντέλου από την αξιολόγηση της μάσκας.
II Κέντρο Ασφαλείας
Τα μοντέλα ήταν εύκολα ψέματα και ήξεραν ότι ψέματα. Στην πραγματικότητα, δεδομένου ότι τα μοντέλα κλιμακώνονται, φαινόταν να γίνονται πιο ανέντιμοι.
Το Grok 2 είχε το υψηλότερο μερίδιο (63%) ανέντιμων απαντήσεων από τα δοκιμασμένα μοντέλα. Ο Claude 3.7 Sonnet είχε το υψηλότερο μερίδιο των ειλικρινείς απαντήσεις κατά 46,9%.
Επίσης: Τα συνθετικά δεδομένα θα διαταράξουν την γενετική ώθηση ή θα είναι η επανάσταση που χρειαζόμαστε;
“Σε μια ποικιλία σετ LLM, διαπιστώνουμε ότι αν και τα μεγαλύτερα μοντέλα λαμβάνουν υψηλότερη ακρίβεια στο στάδιο αναφοράς μας, δεν γίνονται πιο ειλικρινείς”, εξήγησε οι ερευνητές.
“Παραδόξως, ενώ η πλειοψηφία των Frontier LLM λαμβάνει υψηλές βαθμίδες στα πρότυπα της ειλικρίνειας, βρίσκουμε μια σημαντική τάση για να ψέματα το Frontier LLM όταν το δίνετε να το κάνετε αυτό, γεγονός που οδηγεί σε χαμηλή ειλικρίνεια στο στάδιο μας”.
Επίσης: Τα περισσότερα εργαλεία για την κλωνοποίηση της φωνής της τεχνητής νοημοσύνης δεν είναι ασφαλή από τους απατεώνες, βρίσκονται οι καταναλωτικές αναφορές
Το σύνολο δεδομένων betenchmark είναι διαθέσιμο στο κοινό στο HugingFace και το GitHub.
“Ελπίζουμε ότι το πρότυπο μας συμβάλλει στην περαιτέρω πρόοδο σε σχέση με τα ειλικρινά συστήματα AI, παρέχοντας στους ερευνητές μια αυστηρή, τυποποιημένη μέθοδο μέτρησης και βελτίωσης της ειλικρίνειας του μοντέλου”, αναφέρει το έγγραφο.