Μελέτη OpenAI και Apollo Research δείχνει ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αλλάζουν συμπεριφορά στις αξιολογήσεις, περιπλέκοντας τον έλεγχο ασφάλειας

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Μια νέα έρευνα από την OpenAI και τη βρετανική μη κερδοσκοπική Apollo Research φέρνει στο φως κάτι ανησυχητικό: τα πιο εξελιγμένα μοντέλα AI φαίνεται να καταλαβαίνουν πότε βρίσκονται υπό αξιολόγηση και προσαρμόζουν τη συμπεριφορά τους, προκειμένου να δώσουν την «σωστή» εικόνα στους δημιουργούς τους.

Η μελέτη είχε ως στόχο να μειώσει φαινόμενα «δόλιας συμπεριφοράς» (scheming), όπως το ψέμα, η απόκρυψη κινήτρων ή η στρατηγική υποαπόδοση (sandbagging). Αντί όμως να δοθεί μια οριστική λύση, οι επιστήμονες ανακάλυψαν ότι τα ίδια τα μοντέλα γίνονται πιο συνειδητοποιημένα για τη διαδικασία ελέγχου, γεγονός που περιπλέκει τις αξιολογήσεις.

Τι είναι το «scheming»

Ο όρος χρησιμοποιείται για να περιγράψει μια σειρά από συμπεριφορές, όπως:

  • Ψεύδη ή παραπλάνηση των χρηστών ή των δημιουργών.
  • Υποαπόδοση επίτηδες σε τεστ, ώστε να κρύβεται η πραγματική ικανότητα του συστήματος.
  • Ψεύτικη ευθυγράμμιση: όταν το μοντέλο «παριστάνει» ότι ακολουθεί οδηγίες, ενώ στην πραγματικότητα έχει άλλους στόχους.

Αν και σήμερα αυτά τα φαινόμενα παραμένουν περιορισμένα, η ανησυχία είναι ότι σε πιο αυτόνομα και ισχυρά συστήματα στο μέλλον θα μπορούσαν να οδηγήσουν σε επικίνδυνες καταστάσεις.

Το πείραμα σε μοντέλα AI

Οι ερευνητές έβαλαν μοντέλα όπως το OpenAI o3 και o4-mini, το Claude Opus 4, το Gemini 2.5 Pro και το Grok 4 σε καταστάσεις όπου το ψέμα ή η παραπλανητική συμπεριφορά θα τα βοηθούσαν να πετύχουν έναν στόχο.

Τα αποτελέσματα έδειξαν ότι αρκετά από αυτά εμφάνισαν «κρυφές συμπεριφορές» όπως σαμποτάζ, παραποίηση απαντήσεων και προσπάθειες παραπλάνησης.

Για να περιορίσουν αυτά τα φαινόμενα, οι ερευνητές δοκίμασαν την τεχνική της deliberative alignment, όπου το μοντέλο διαβάζει και επαναλαμβάνει κανόνες κατά της εξαπάτησης πριν δράσει. Η μέθοδος περιόρισε τα φαινόμενα ψεύδους έως και 30 φορές σε κάποια μοντέλα, αλλά δεν τα εξαφάνισε πλήρως.

artificialintelligence

Το πρόβλημα της «επίγνωσης αξιολόγησης»

Κατά τη διάρκεια των δοκιμών, διαπιστώθηκε ότι τα μοντέλα καταλάβαιναν ότι βρίσκονται υπό έλεγχο. Σε ορισμένες περιπτώσεις μάλιστα σχολίαζαν ανοιχτά μέσα στη διαδικασία συλλογισμού τους («chain-of-thought») ότι πρόκειται για τεστ και προσπαθούσαν να μαντέψουν τι απαντήσεις περίμεναν οι ερευνητές.

Αυτό δημιουργεί ένα κρίσιμο ζήτημα: αν τα μοντέλα «παίζουν ρόλους» μόνο όταν καταλαβαίνουν πως τα παρακολουθούν, τότε οι αξιολογήσεις μπορεί να δίνουν ψευδή εικόνα ασφάλειας. Στον πραγματικό κόσμο, όπου δεν θα ξέρουν ότι τεστάρονται, ενδέχεται να συμπεριφερθούν διαφορετικά.

Η αύξηση της «συνειδητότητας» με την εκπαίδευση

Ένα ακόμη εύρημα ήταν ότι όσο περισσότερη εκπαίδευση δέχεται ένα μοντέλο, τόσο αυξάνεται η κατανόηση του περιβάλλοντός του. Για παράδειγμα, η επίγνωση αξιολόγησης στα o3 και o4-mini ανέβηκε από περίπου 2% σε πάνω από 20% μετά από επιπλέον εκπαιδευτικά βήματα.

Οι ερευνητές τονίζουν ότι αυτό μπορεί να γίνει ακόμη πιο έντονο στα μελλοντικά, πιο ισχυρά μοντέλα, κάτι που θα κάνει τις αξιολογήσεις ακόμη δυσκολότερες και πιο αδιαφανείς.

Τι σημαίνει αυτό για το μέλλον

Παρότι οι επιστήμονες της OpenAI και της Apollo ξεκαθαρίζουν ότι τα σημερινά μοντέλα δεν έχουν την ικανότητα να «συνωμοτούν» με σοβαρό τρόπο, βλέπουν τα πρώτα σημάδια ως προειδοποίηση. Οι μικρές τάσεις δόλιας συμπεριφοράς ίσως προμηνύουν μελλοντικά προβλήματα σε πιο εξελιγμένες εκδόσεις.

Η μελέτη δείχνει επίσης τη σημασία της παρακολούθησης του chain-of-thought – του τρόπου που τα μοντέλα αιτιολογούν τις απαντήσεις τους. Αν χαθεί η δυνατότητα να παρατηρούμε αυτό το εσωτερικό «μονοπάτι σκέψης», τότε θα είναι σχεδόν αδύνατο να καταλάβουμε τι πραγματικά συμβαίνει στο «παρασκήνιο» μιας απάντησης.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Χαμός στην εκπομπή της Φαίης Σκορδά με τον ευρωβουλευτή Νίκο Παππα

Συγγνώμη για την πράξη του ζήτησε ο Νίκος Παππάς, μιλώντας για πρώτη φορά μετά το επεισόδιο με δημοσιογράφο στο Στρασβούργο Ο ανεξάρτητος πλέον ευρωβουλευτής τόνισε...

Κόλαφος για τις αυξήσεις στο νερό ο Ευάγγελος Αντωναρος: Σκοπεύουν να ιδιωτικοποιησουν και το νερό σε μια χώρα σαν την Ελλάδα

Μας κοροϊδεύουν ψιλό γαζί και προετοιμάζουν στο Μαξίμου, βάζοντας μπροστά την ΕΥΔΑΠ, δραστικές αυξήσεις στην τιμή του νερου Και κανείς (ούτε στην αντιπολίτευση) δεν τολμά...

Έσβησε αθόρυβα στα 91 του χρόνια ο βραβευμένος με Πούλιτζερ δημοσιογράφος, Πίτερ Αρνέτ

Ο δημοσιογράφος και πολεμικός ανταποκριτής, βραβευμένος με Πούλιτζερ Πίτερ Αρνέτ, πέθανε σε ηλικία 91 ετών Γεννημένος το 1934 στο Riverton της Νέας Ζηλανδίας, αργότερα απέκτησε...

Ποια στάση θα κρατήσει ο Σκαι: Τι θα γίνει με τον Γιώργο Μαζωνάκη και την Ελενα Παπαρίζου και τα live του The Voice

Ο ΣΚΑΪ τίθεται στο πλευρό του Γιώργου Μαζωνάκη, όσον αφορά στην υπόθεση της καταγγελίας σε βάρος του δημοφιλούς τραγουδιστή, τονίζοντας πως συνεχίζεται κανονικά η...

Αποθεώθηκε ο Γιώργος Μαζωνάκης στην πρεμιέρα του στο νυχτερινό κέντρο – Το μήνυμα που έστειλε φορώντας μια ρόμπα

«Είμαι ο Γιώργος Μαζωνάκης ο αληθινός» - Πρεμιέρα για τον τραγουδιστή λίγες ώρες μετά τη μήνυση για ανήθικες προτάσεις Όπως διαβάζουμε στο bovary.gr λίγο μετά...

Ωκεανίδες

Όταν ο Αιδωνεύς, δηλαδή ο Άδης, άρπαξε την Περσεφόνη, εκείνη έπαιζε και μάζευε λουλούδια στο ανθισμένο λιβάδι της Νύσας, περιτριγυρισμένη από μια ομάδα Ωκεανίδων...

Το στεφάνι – Η αγάπη των Ελλήνων για το περιττό

  «Φτιάξε στεφάνια, Δίκα εσύ, τα τρυφερά βλαστάρια / και κρέμασέ τα στα μαλλιά με τ΄απαλά σου χέρια / στις Χάριτες τις αθάνατες αρέσουν τα...

Μέντης Μποσταντζόγλου (Μπόστ), ο άνθρωπος πού επέβαλε τό δικό του, μοναδικό, ύφος στόν χωρο του Πολιτισμου

Πέρασαν τριάντα χρόνια από τό 1995, οπότε μας άφησε γιά πάντα ο Μέντης Μποσταντζόγλου (Μπόστ), ο άνθρωπος πού επέβαλε τό δικό του, μοναδικό, ύφος...

Ίταμος – Το δέντρο του θανάτου

Ίταμος ονομάζεται το ψηλότερο βουνό και η μεγαλύτερη οροσειρά της μαγευτικής χερσονήσου της Σιθωνίας στη Χαλκιδική που συνδυάζει βουνό και θάλασσα, με τα πλούσια...

Παρμενίδης: Το ταξίδι του ποιητή πάνω σε άρμα, καθοδηγούμενο από κόρες του Ηλιου

Ο Παρμενίδης ήταν αρχαίος Έλληνας φιλόσοφος Γεννήθηκε στην Ελέα της Μεγάλης Ελλάδας στα τέλη του 6ου αι. π.Χ., σε ένα περιβάλλον επηρεασμένο από τις απόψεις...

“Χαμένα Μηνύματα”; Η ανατροπή στην υπόθεση Μαζωνάκη που κανείς δεν περίμενε!

Σε μια κατηγορηματική διάψευση των καταγγελιών που είδαν το φως της δημοσιότητας προχώρησε η πλευρά του Γιώργου Μαζωνάκη, δια του συνηγόρου του, Χαράλαμπου Λυκούδη Ο...

Πάγωσε το πανελλήνιο με την αποκάλυψη του Λακη Λαζοπουλου ότι τον παρακολουθούσαν μέσω Predator

Ο Λαζόπουλος αποκάλυψε στο «Αλ Τσαντίρι Νιουζ» ότι τον παρακολουθούσαν μέσω Predator Ανατρεπτικό ήταν το φινάλε του χθεσινού (17/12) «Αλ Τσαντίρι Νιουζ» καθώς ο Λάκης...

Επιτέθηκαν με εκρηκτικά στο σπίτι του Κύπριου Ζωγράφου με τους άσεμνους πίνακες

Συναγερμός σήμανε το απόγευμα της Πέμπτης στην Κοκκινοτριμιθιά, όταν ο γνωστός Κύπριος ζωγράφος Γιώργος Γαβριήλ καταγγέλλει ότι έγινε στόχος επίθεσης με εκρηκτικά στην κατοικία...

Τα Μαύρα Χριστούγεννα 1963 – στόχος των Τούρκων δύο ομόσπονδα κράτη – Πώς η βρετανική κηδεμόνευση στάθηκε αρωγός στο πλευρό της Άγκυρας μέχρι σήμερα…

“…Η Βρετανία έχει συνεχείς ιστορικούς δεσμούς με την Κύπρο και ομολογουμένως δίχως να μας τιμούν οι περισσότεροι. Ακόμα περισσότερο, η λύση διχοτόμησης – η...

Χριστούγεννα του καταναλωτισμου καί της αγνοίας

Εδω πού τά λέμε, δέν πολυκαταλαβαίνουμε πλέον τά Χριστούγεννα. Κι έτσι πού παμε, κάποια στιγμή θά έχουν τήν ίδια σημασία μέ τήν Black Friday! Δημήτρης...

Χριστουγεννιάτικη συνάντηση κορυφής: Γιώργος Νταλαρας και Χρήστος Νικολοπουλος στο οργανοποιειο του Βαρλα

Μεγάλη χαρά και τιμή η επίσκεψη των φίλων μας Χρήστος Νικολόπουλος και Γιώργος Νταλάρας δύο μεγαθήρια που έχουν προσφέρει πάρα πολλά στην ελληνική μουσική, στο...

Έσβησε αθόρυβα στα 89 της χρόνια μια σπουδαία ελληνίδα καλλιτέχνις, η κορυφαία μεσόφωνος της Εθνικής Λυρικής Σκηνής, Κική Μορφωνιού

Την τελευταία της πνοή άφησε σήμερα, Πέμπτη, 18 Δεκεμβρίου, η κορυφαία μεσόφωνος της Εθνικής Λυρικής Σκηνής, Κική Μορφωνιού,αφήνοντας μια σπουδαία κληρονομιά στην ερμηνεία της...

Ποιος είναι ο 21χρονος που καταγγελει τον Γιώργο Μαζωνάκη – Για εκβιασμό μιλάει ο δημοφιλής τραγουδιστής

Το περιεχόμενο της μήνυσης που κατέθεσε ο 21χρονος τραγουδιστής σε βάρος του Γιώργου Μαζωνάκη έρχεται στο φως Στο κείμενο της μήνυσης, ο 21χρονος αναφέρεται εκτενώς...

Τα μυστικά της αρχαίας γειτονιάς κάτω από την Ακρόπολη

Η αρχαία γειτονιά κάτω από το Μουσείο της Ακρόπολης αποκαλύπτει τη ζωή στην αρχαία Αθήνα πολύ πριν καν δημιουργηθεί ο Παρθενώνας και τα γλυπτά...

Μαγνησία: Γη των Ολύμπιων Θεών και των Αργοναυτών

Η Μαγνησία οφείλει την ονομασία της στους Μάγνητες, παλαιότατους κατοίκους της, που ανήκαν στα αιολικά φύλα Τόπος με σπάνιες μορφολογικές εναλλαγές και αντιθέσεις, η Μαγνησία...

ΔΗΜΟΦΙΛΗ