Μελέτη OpenAI και Apollo Research δείχνει ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αλλάζουν συμπεριφορά στις αξιολογήσεις, περιπλέκοντας τον έλεγχο ασφάλειας

ΔΕΙΤΕ ΑΚΟΜΗ

Μια νέα έρευνα από την OpenAI και τη βρετανική μη κερδοσκοπική Apollo Research φέρνει στο φως κάτι ανησυχητικό: τα πιο εξελιγμένα μοντέλα AI φαίνεται να καταλαβαίνουν πότε βρίσκονται υπό αξιολόγηση και προσαρμόζουν τη συμπεριφορά τους, προκειμένου να δώσουν την «σωστή» εικόνα στους δημιουργούς τους.

Η μελέτη είχε ως στόχο να μειώσει φαινόμενα «δόλιας συμπεριφοράς» (scheming), όπως το ψέμα, η απόκρυψη κινήτρων ή η στρατηγική υποαπόδοση (sandbagging). Αντί όμως να δοθεί μια οριστική λύση, οι επιστήμονες ανακάλυψαν ότι τα ίδια τα μοντέλα γίνονται πιο συνειδητοποιημένα για τη διαδικασία ελέγχου, γεγονός που περιπλέκει τις αξιολογήσεις.

Τι είναι το «scheming»

Ο όρος χρησιμοποιείται για να περιγράψει μια σειρά από συμπεριφορές, όπως:

  • Ψεύδη ή παραπλάνηση των χρηστών ή των δημιουργών.
  • Υποαπόδοση επίτηδες σε τεστ, ώστε να κρύβεται η πραγματική ικανότητα του συστήματος.
  • Ψεύτικη ευθυγράμμιση: όταν το μοντέλο «παριστάνει» ότι ακολουθεί οδηγίες, ενώ στην πραγματικότητα έχει άλλους στόχους.

Αν και σήμερα αυτά τα φαινόμενα παραμένουν περιορισμένα, η ανησυχία είναι ότι σε πιο αυτόνομα και ισχυρά συστήματα στο μέλλον θα μπορούσαν να οδηγήσουν σε επικίνδυνες καταστάσεις.

Το πείραμα σε μοντέλα AI

Οι ερευνητές έβαλαν μοντέλα όπως το OpenAI o3 και o4-mini, το Claude Opus 4, το Gemini 2.5 Pro και το Grok 4 σε καταστάσεις όπου το ψέμα ή η παραπλανητική συμπεριφορά θα τα βοηθούσαν να πετύχουν έναν στόχο.

Τα αποτελέσματα έδειξαν ότι αρκετά από αυτά εμφάνισαν «κρυφές συμπεριφορές» όπως σαμποτάζ, παραποίηση απαντήσεων και προσπάθειες παραπλάνησης.

Για να περιορίσουν αυτά τα φαινόμενα, οι ερευνητές δοκίμασαν την τεχνική της deliberative alignment, όπου το μοντέλο διαβάζει και επαναλαμβάνει κανόνες κατά της εξαπάτησης πριν δράσει. Η μέθοδος περιόρισε τα φαινόμενα ψεύδους έως και 30 φορές σε κάποια μοντέλα, αλλά δεν τα εξαφάνισε πλήρως.

artificialintelligence

Το πρόβλημα της «επίγνωσης αξιολόγησης»

Κατά τη διάρκεια των δοκιμών, διαπιστώθηκε ότι τα μοντέλα καταλάβαιναν ότι βρίσκονται υπό έλεγχο. Σε ορισμένες περιπτώσεις μάλιστα σχολίαζαν ανοιχτά μέσα στη διαδικασία συλλογισμού τους («chain-of-thought») ότι πρόκειται για τεστ και προσπαθούσαν να μαντέψουν τι απαντήσεις περίμεναν οι ερευνητές.

Αυτό δημιουργεί ένα κρίσιμο ζήτημα: αν τα μοντέλα «παίζουν ρόλους» μόνο όταν καταλαβαίνουν πως τα παρακολουθούν, τότε οι αξιολογήσεις μπορεί να δίνουν ψευδή εικόνα ασφάλειας. Στον πραγματικό κόσμο, όπου δεν θα ξέρουν ότι τεστάρονται, ενδέχεται να συμπεριφερθούν διαφορετικά.

Η αύξηση της «συνειδητότητας» με την εκπαίδευση

Ένα ακόμη εύρημα ήταν ότι όσο περισσότερη εκπαίδευση δέχεται ένα μοντέλο, τόσο αυξάνεται η κατανόηση του περιβάλλοντός του. Για παράδειγμα, η επίγνωση αξιολόγησης στα o3 και o4-mini ανέβηκε από περίπου 2% σε πάνω από 20% μετά από επιπλέον εκπαιδευτικά βήματα.

Οι ερευνητές τονίζουν ότι αυτό μπορεί να γίνει ακόμη πιο έντονο στα μελλοντικά, πιο ισχυρά μοντέλα, κάτι που θα κάνει τις αξιολογήσεις ακόμη δυσκολότερες και πιο αδιαφανείς.

Τι σημαίνει αυτό για το μέλλον

Παρότι οι επιστήμονες της OpenAI και της Apollo ξεκαθαρίζουν ότι τα σημερινά μοντέλα δεν έχουν την ικανότητα να «συνωμοτούν» με σοβαρό τρόπο, βλέπουν τα πρώτα σημάδια ως προειδοποίηση. Οι μικρές τάσεις δόλιας συμπεριφοράς ίσως προμηνύουν μελλοντικά προβλήματα σε πιο εξελιγμένες εκδόσεις.

Η μελέτη δείχνει επίσης τη σημασία της παρακολούθησης του chain-of-thought – του τρόπου που τα μοντέλα αιτιολογούν τις απαντήσεις τους. Αν χαθεί η δυνατότητα να παρατηρούμε αυτό το εσωτερικό «μονοπάτι σκέψης», τότε θα είναι σχεδόν αδύνατο να καταλάβουμε τι πραγματικά συμβαίνει στο «παρασκήνιο» μιας απάντησης.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Απόλλωνας: Η Θεϊκή Αρμονία, το Φως και οι Χρησμοί του Ολύμπου

Μία από τις πιο πολυσύνθετες και λατρευτές θεότητες του αρχαιοελληνικού πανθέου Ο Απόλλωνας, ένας από τους δώδεκα Ολύμπιους θεούς, αποτελεί μία από τις πιο πολυσύνθετες...

Αινείας: Από την Καμένη Τροία στη Γέννηση μιας Αυτοκρατορίας

Ο Αινείας, γιος της θεάς Αφροδίτης και του θνητού Αγχίση Αναδείχθηκε σε μία από τις πιο τραγικές και συνάμα ηρωικές μορφές του Τρωικού Πολέμου. Αν...

8 Ιουνίου εορτάζει η Αγία Καλλιόπη

8 Ιουνίου εορτάζει η Αγία Καλλιόπη Η Αγία Καλλιόπη είναι μια σπουδαία Μάρτυρας της Χριστιανικής Εκκλησίας, η μνήμη της οποίας τιμάται στις 8 Ιουνίου.Ήταν μια...

Mediterranean Sky: Το Ναυάγιο Φάντασμα της Ελευσίνας

Το Mediterranean Sky αποτελεί ένα από τα πιο γνωστά εγκαταλελειμμένα πλοία στην Ελλάδα και ίσως το πιο χαρακτηριστικό «πλοίο-φάντασμα» του Σαρωνικού Το τεράστιο κουφάρι του,...

Έσπασε 2 φορές το ρεκόρ ο Μαριος Ηλιόπουλος 

Έσπασε 2 φορές το ρεκόρ ο Μαριος Ηλιόπουλος  Στο πρώτο σκέλος του αγώνα σταμάτησε τα χρονόμετρα στο 2:43.82, πετυχαίνοντας τον καλύτερο χρόνο όλων των κατηγοριών,...

Ο Σωκράτης και η Ξανθίππη

Ένα από τα πιο διάσημα και συζητημένα θέματα της αρχαίας Αθήνας Η σχέση του μεγάλου φιλοσόφου Σωκράτη με τη σύζυγό του, Ξανθίππη, αποτελεί ένα από...

Κότινος: Το Στεφάνι των Νικητών στην Αρχαία Ελλάδα

Τι Είναι ο Κότινος; Ο κότινος είναι η άγρια ελιά, γνωστή και ως το στεφάνι της νίκης στην αρχαία Ελλάδα. Οι αρχαίοι Έλληνες χρησιμοποιούσαν τα...

Κυλώνειο άγος Αθήνα: Πραξικόπημα Κύλωνα και συνέπειες

Η Τυραννία του Θεαγένη στα Μέγαρα Ο Θεαγένης αναλαμβάνει την εξουσία στα Μέγαρα το 640 π.Χ. μέσω πραξικοπήματος και καταφέρνει να επιβάλει μια σύντομη αλλά...

Μέλας ζωμός Σπάρτη: Η διατροφή των πολεμιστών

Στη Σπάρτη, οι πολεμιστές συνήθιζαν να καταναλώνουν έναν ζωμό από χοιρινό κρέας, γνωστό ως μέλας ζωμός Σύμφωνα με τον Πλούταρχο («Βίοι Παράλληλοι, Λυκούργος»), αυτό το...

Βιβλιοθήκη Αλεξάνδρειας: Καταστροφή και Θρύλοι

Η θρυλική Βιβλιοθήκη της Αλεξάνδρειας Η Βασιλική Βιβλιοθήκη της Αλεξάνδρειας υπήρξε το σημαντικότερο κέντρο γνώσης της αρχαιότητας. Θεωρείται ότι ιδρύθηκε από τον Πτολεμαίο Β΄ Σωτήρα...

Τυφων (Τυφωεύς): Το Τέρας της Μυθολογίας (Δεύτερο Μερος)

3. Η Τυφωνομαχία: Η Σύγκρουση για την Κοσμική Κυριαρχία Ο Τυφών θέλησε να ανατρέψει τον Δία και να κυβερνήσει θεούς και θνητούς. Όταν επιτέθηκε στον...

Maestro: Σύμπραξη Χάρη Δούκα και Χριστοφορου Παπακαλιάτη

Σε ανάρτηση του ο Χάρης Δούκας αναφέρει:  Η τελευταία σκηνή του Maestro γυρίστηκε στο Δημαρχείο της Αθήνας! Θερμά συγχαρητήρια στον Χριστόφορο Παπακαλιάτη και σε ολόκληρη την...

Γιατί Δεν Έχουν Σωθεί Αρχαία στη Σπάρτη;

Η Σπάρτη και τα Χαμένα της Μνημεία Η αρχαία Σπάρτη υπήρξε μία από τις σημαντικότερες πόλεις-κράτη της Ελλάδας. Κι όμως, σήμερα ελάχιστα υλικά κατάλοιπα σώζονται...

Θεόδωρος Κολυδάς: Δεν υπάρχει λόγος ανησυχίας για γενικευμένο και έντονο καύσωνα αυτή την περίοδο στην Ελλάδα

ΠΛΕΙΟΔΟΣΙΑ ΚΑΙ ΕΝΤΥΠΩΣΕΙΣ Το έχουμε επισημάνει πολλές φορές: όσο η ισόθερμη των 20°C στα 850 hPa δεν εγκαθίσταται ουσιαστικά πάνω από την Ελλάδα, δεν υπάρχει...

Δουράντα: Το λουλούδι του ουρανού με τα κρεμαστά άνθη

Η δουράντα είναι ένα τροπικό φυτό με μαγευτικά μωβ μπλε λουλούδια που κρέμονται προς τα κάτω δημιουργώντας ένα εντυπωσιακό θέαμα. Γνωστή και ως ντουράντα (Duranta...

Κυριακή των Αγίων Πάντων – Ποιοι γιορτάζουν σημερα

Η Κυριακή των Αγίων Πάντων είναι η εορτή και η μαρτυρία της Μίας, Αγίας, Καθολικής και Αποστολικής Εκκλησίας στα πρόσωπα όλων των Αγίων της,...

Κυριακή των Αγίων Πάντων – ήθη και έθιμα

Τα έθιμα για την εορτή των Αγίων Πάντων ποικίλουν ανάλογα με την περιοχή και την παράδοσηΣυνήθως, περιλαμβάνουν εκκλησιασμό, μνημόσυνο για τους νεκρούς, και σε...

Βόμβα Βαξεβάνη για ΣΥΡΙΖΑ: Ψήφισαν 60-40 να…..

Σε ανάρτηση του ο Κώστας Βαξεβάνης αναφέρει: Στην ΚΕ του ΣΥΡΙΖΑ ψήφισαν 60-40 να είναι υποψήφιος ο Φάμελλος με το κόμμα Τσίπρα στη Β Θεσσαλονίκης....

Ημεροκάλλις: Ανθεκτικό φυτό με μεγάλα εντυπωσιακά λουλούδια

Με καταγωγή από την Ανατολική Ασία, η ημεροκάλλις ανήκει στους βολβούς λουλουδιών που φυτεύουμε την άνοιξη και ανθίζει την περίοδο του καλοκαιριού χαρίζοντάς μας...

Τι Σημαίνει το Όνομα Ευρυμέδοντας; Προέλευση και Μύθοι

Το όνομα Ευρυμέδοντας (αρχ. Ευρυμέδων) είναι σύνθετο και προέρχεται από τις λέξεις ευρύς (πλατύς, μεγάλος) και το ρήμα μέδω (άρχω, κυβερνώ, προστατεύω). Συνεπώς, ετυμολογικά...

ΔΗΜΟΦΙΛΗ