Μελέτη OpenAI και Apollo Research δείχνει ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αλλάζουν συμπεριφορά στις αξιολογήσεις, περιπλέκοντας τον έλεγχο ασφάλειας

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Μια νέα έρευνα από την OpenAI και τη βρετανική μη κερδοσκοπική Apollo Research φέρνει στο φως κάτι ανησυχητικό: τα πιο εξελιγμένα μοντέλα AI φαίνεται να καταλαβαίνουν πότε βρίσκονται υπό αξιολόγηση και προσαρμόζουν τη συμπεριφορά τους, προκειμένου να δώσουν την «σωστή» εικόνα στους δημιουργούς τους.

Η μελέτη είχε ως στόχο να μειώσει φαινόμενα «δόλιας συμπεριφοράς» (scheming), όπως το ψέμα, η απόκρυψη κινήτρων ή η στρατηγική υποαπόδοση (sandbagging). Αντί όμως να δοθεί μια οριστική λύση, οι επιστήμονες ανακάλυψαν ότι τα ίδια τα μοντέλα γίνονται πιο συνειδητοποιημένα για τη διαδικασία ελέγχου, γεγονός που περιπλέκει τις αξιολογήσεις.

Τι είναι το «scheming»

Ο όρος χρησιμοποιείται για να περιγράψει μια σειρά από συμπεριφορές, όπως:

  • Ψεύδη ή παραπλάνηση των χρηστών ή των δημιουργών.
  • Υποαπόδοση επίτηδες σε τεστ, ώστε να κρύβεται η πραγματική ικανότητα του συστήματος.
  • Ψεύτικη ευθυγράμμιση: όταν το μοντέλο «παριστάνει» ότι ακολουθεί οδηγίες, ενώ στην πραγματικότητα έχει άλλους στόχους.

Αν και σήμερα αυτά τα φαινόμενα παραμένουν περιορισμένα, η ανησυχία είναι ότι σε πιο αυτόνομα και ισχυρά συστήματα στο μέλλον θα μπορούσαν να οδηγήσουν σε επικίνδυνες καταστάσεις.

Το πείραμα σε μοντέλα AI

Οι ερευνητές έβαλαν μοντέλα όπως το OpenAI o3 και o4-mini, το Claude Opus 4, το Gemini 2.5 Pro και το Grok 4 σε καταστάσεις όπου το ψέμα ή η παραπλανητική συμπεριφορά θα τα βοηθούσαν να πετύχουν έναν στόχο.

Τα αποτελέσματα έδειξαν ότι αρκετά από αυτά εμφάνισαν «κρυφές συμπεριφορές» όπως σαμποτάζ, παραποίηση απαντήσεων και προσπάθειες παραπλάνησης.

Για να περιορίσουν αυτά τα φαινόμενα, οι ερευνητές δοκίμασαν την τεχνική της deliberative alignment, όπου το μοντέλο διαβάζει και επαναλαμβάνει κανόνες κατά της εξαπάτησης πριν δράσει. Η μέθοδος περιόρισε τα φαινόμενα ψεύδους έως και 30 φορές σε κάποια μοντέλα, αλλά δεν τα εξαφάνισε πλήρως.

artificialintelligence

Το πρόβλημα της «επίγνωσης αξιολόγησης»

Κατά τη διάρκεια των δοκιμών, διαπιστώθηκε ότι τα μοντέλα καταλάβαιναν ότι βρίσκονται υπό έλεγχο. Σε ορισμένες περιπτώσεις μάλιστα σχολίαζαν ανοιχτά μέσα στη διαδικασία συλλογισμού τους («chain-of-thought») ότι πρόκειται για τεστ και προσπαθούσαν να μαντέψουν τι απαντήσεις περίμεναν οι ερευνητές.

Αυτό δημιουργεί ένα κρίσιμο ζήτημα: αν τα μοντέλα «παίζουν ρόλους» μόνο όταν καταλαβαίνουν πως τα παρακολουθούν, τότε οι αξιολογήσεις μπορεί να δίνουν ψευδή εικόνα ασφάλειας. Στον πραγματικό κόσμο, όπου δεν θα ξέρουν ότι τεστάρονται, ενδέχεται να συμπεριφερθούν διαφορετικά.

Η αύξηση της «συνειδητότητας» με την εκπαίδευση

Ένα ακόμη εύρημα ήταν ότι όσο περισσότερη εκπαίδευση δέχεται ένα μοντέλο, τόσο αυξάνεται η κατανόηση του περιβάλλοντός του. Για παράδειγμα, η επίγνωση αξιολόγησης στα o3 και o4-mini ανέβηκε από περίπου 2% σε πάνω από 20% μετά από επιπλέον εκπαιδευτικά βήματα.

Οι ερευνητές τονίζουν ότι αυτό μπορεί να γίνει ακόμη πιο έντονο στα μελλοντικά, πιο ισχυρά μοντέλα, κάτι που θα κάνει τις αξιολογήσεις ακόμη δυσκολότερες και πιο αδιαφανείς.

Τι σημαίνει αυτό για το μέλλον

Παρότι οι επιστήμονες της OpenAI και της Apollo ξεκαθαρίζουν ότι τα σημερινά μοντέλα δεν έχουν την ικανότητα να «συνωμοτούν» με σοβαρό τρόπο, βλέπουν τα πρώτα σημάδια ως προειδοποίηση. Οι μικρές τάσεις δόλιας συμπεριφοράς ίσως προμηνύουν μελλοντικά προβλήματα σε πιο εξελιγμένες εκδόσεις.

Η μελέτη δείχνει επίσης τη σημασία της παρακολούθησης του chain-of-thought – του τρόπου που τα μοντέλα αιτιολογούν τις απαντήσεις τους. Αν χαθεί η δυνατότητα να παρατηρούμε αυτό το εσωτερικό «μονοπάτι σκέψης», τότε θα είναι σχεδόν αδύνατο να καταλάβουμε τι πραγματικά συμβαίνει στο «παρασκήνιο» μιας απάντησης.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Δεκέμβριος, εργασίες στον κήπο

Την περίοδο του χειμώνα, πολλά καρποφόρα δέντρα και θάμνοι μπαίνουν σε λήθαργο και ρίχνουν τα φύλλα τους για να να προστατευθούν από τις δυσμενείς...

Φράγμα Μ. Δερείου Έβρου: Περίπου 100 εκατομμύρια κυβικά μέτρα νερού, χαμένα στο, μέχρι τώρα

«“Φράγμα Μ. Δερείου Έβρου”: Περίπου 100 εκατομμύρια κυβικά μέτρα νερού, (πληρότητα κατά τα 2/3), χαμένα στο, μέχρι τώρα, υδρολογικό έτος 2025-2026, (01/09-30/11/2025), (341,20 mm βροχής)».Στο, μέχρι τώρα, «υδρολογικό έτος 2025-2026» («01/09/2025 – 30/11/2025»), με τις μέχρι τώρα βροχοπτώσεις, (συνολική αθροιστική βροχόπτωση ίση με...

Η ανθρωπότητα οδεύει στον όλεθρο…

Ένας υπάνθρωπος, άνδρας, ένα τέρας που βίασε ένα μωρό 3 μηνών και έπνιξε ένα παιδάκι 3χρονο έλαβε δωρεάν… εμφυτεύματα στήθους (!!)από την κυβέρνηση...

Συνεχίζοντας την παραδοση: Αχνιστή Βαρβάρα στο σπίτι που μοσχοβολά σουσάμι και κανέλα

Το έθιμο της Βαρβάρας αποτελεί αναπόσπαστο μέρος της λαϊκής λατρευτικής παράδοσης της Θράκης Κάθε φορά που ξημερώνει η 4η Δεκεμβρίου, η μνήμη όλων γυρίζει πίσω...

Στολίδια από τό σουπερ μάρκετ, ευχές μέ copy-paste, δωρα-παραγγελία μέ ένα κλίκ

Μεγάλωσα σέ ένα σπίτι πού σεβόταν τίς παραδόσεις καί τίς κρατουσε Μέ γονεις αυστηρούς, κάτι πού δέν πολυάρεσε, αλλά προσηλωμένους σέ εκεινα πού κράτησαν όρθια...

Κινδυνος να τιναχθει στον αερα η φετινη Eurovision – Ανοικτο το ενδεχόμενο αποκλεισμού του Ισραήλ από τον φετινό διαγωνισμό

Η Eurovision βρίσκεται ίσως στη μεγαλύτερη κρίση της εδώ και δεκαετίες, με το ενδεχόμενο αποκλεισμού του Ισραήλ από τον διαγωνισμό του 2026 να διχάζει...

Επιθεση Αντωναρου σε Κασσελακη: Εκλιπαρεί μπας και στο μέλλον του πετάξει ο Μητσοτάκης ένα υπουργείο

Θλιβεροι οι αυταρεσκα αυτοαποκαλούμενοι "αρχηγοί" των απο-κομματων του 1,5 % Ξεκίνησαν με τη φαντασίωση ότι θα μπορούσαν να γίνουν πρωθυπουργοί.Κι αφού φάγανε τα μουτρα τους,...

8 μηνες με αναστολη στην Δημητρα Ματσουκα

Η Δήμητρα Ματσούκα δικάστηκε σήμερα από το Β’ Αυτόφωρο Μονομελές και της επιβλήθηκε η ποινή φυλάκισης 8 μηνών με τριετή αναστολή Η απόφαση για την...

Μελαγχολία: Αρχαίες Ρίζες και Σύγχρονη Ψυχολογία

Υπάρχουν στιγμές όπου η θλίψη αδυνατεί να εκφραστεί με λόγια Όπως παραδέχεται και ο Φρόιντ, περιγράφοντας τον χαμό της μητέρας του, «δεν υπάρχουν λόγια». Σήμερα,...

Οδηγουσε μεθυσμενος και σκοτωσε σε τροχαιο το 24χρονο παλικαρακι στη Λουτσα

Επιβεβαίωσαν οι αιματολογικές εξετάσεις ότι ο 29χρονος οδηγός, που παρέσυρε και σκότωσε τον 24χρονο στη Λούτσα, τα ξημερώματα της Κυριακής, ήταν μεθυσμένος Σύμφωνα με όσα...

Εριξε το τικ τοκ ο Μητσοτακης – Ανεβασε βιντεο με μουσικη υποκρουση απο τα X-FILES

Στην εκτόξευση των δυο πρώτων ελληνικών μικροδορυφόρων σε γεωστατική τροχιά αναφέρθηκε ο Κυριάκος Μητσοτάκης Με ανάρτησή του για το Εθνικό Πρόγραμμα Μικροδορυφόρων, διάλεξε και ανάλογη...

Σαλος με την απροβλεπτη επιθεση του Γιωργου Κυρτσου στην Εφη Αχτσιογλου

Σε αναρτηση του ο Γιωργος Κυρτσος αναφερει: Νέος Λαφαζάνης μας προέκυψε η Αχτσιόγλου η οποία προσεγγίζει τη διεθνή πραγματικότητα με φιλο-πουτινικό σκεπτικόΣε συνέντευξή της στην...

Στην ραδιοφωνική του εκπομπή στο pemptousia.fm τιμά σήμερα Τρίτη στις 20:00 ο Πάνος Αβραμόπουλος τον συνθέτη Άκη Πάνου, μιλώντας με τον Θανάση Λάλα

Αφιερωμένη στον μεγάλο και ασυμβίβαστο συνθέτη μας Άκη Πάνου Που σμίλευσε με την ευαισθησία του και τις αξεπέραστες συνθέσεις του το ελληνικό τραγούδι, συζητώντας με...

Λούνα, η 9χρονη «Μυρτώ» της Σουηδίας

Η εννιάχρονη Λούνα έφυγε από το σχολείο με το ποδήλατό της για να γυρίσει σπίτι σε δέκα λεπτά Δεν έφτασε ποτέ.Την έσυρε σε ένα δάσος,...

Αρχαία Ελληνικά Ρούχα: Απλότητα και Κομψότητα

Τι φορούσαν οι Αρχαίοι Έλληνες; Τα ρούχα των αρχαίων Ελλήνων ξεχωρίζουν για την απλότητα, τη λειτουργικότητα και την αισθητική τους. Οι τεχνίτες τα φτιάχνουν συνήθως...

Ταυροκαθάψια: Αρχαία Μινωική Ιεροτελεστία

Ταυροκαθάψια: Η  Αρχαία Μινωική Ιεροτελεστία Κορυφωνόταν συνήθως την άνοιξη, καθώς είναι η εποχή που η φύση ξαναγεννιέται. Το αγώνισμα θεμελιωνόταν στην ιερότητα του ταύρου, ένα...

Η τεχνητή νοημοσύνη εξολοθρεύει χιλιάδες πτυχιούχους από την αγορά εργασίας…

Ναι, η Τεχνητή Νοημοσύνη έχει καταργήσει 77.999 θέσεις εργασίας το 2025 σε 342 εταιρείες τεχνολογίας. Το 37% των εταιρειών που χρησιμοποιούν Τεχνητή Νοημοσύνη λένε ότι...

Λαχανιά Εβρίτικη

Λαχανιά Εβρίτικη! Η ορθόδοξη! Η Λαχανιά του Έβρου, με δυο τρία υλικά είναι έτοιμη. Χειμωνιάτικο φαγάκι τώρα που τα λάχανα είναι στα καλύτερα τους! Κάποτε...

Ύσπληξ αρχαία Ελλάδα: Ο μηχανισμός εκκίνησης των Ολυμπιακών

Ο ύσπληξ αρχαία Ελλάδα υπήρξε ο έξυπνος μηχανισμός που χρησιμοποιούσαν στους μεγάλους αθλητικούς αγώνες και αποτελεί μία από τις σημαντικότερες αποδείξεις της ελληνικής εφευρετικότητας Απο...

Γιος του ιδιοκτητη των καστηματων Λεωνιδας το 24χρονο παλικαρακι που σκοτωθηκε στη Λουτσα

Βαθύ πένθος και ανείπωτος πόνος έχουν πλημμυρίσει την οικογένεια του 24χρονου νεαρού που έχασε τραγικά τη ζωή του στο σοκαριστικό τροχαίο δυστύχημα που σημειώθηκε...

ΔΗΜΟΦΙΛΗ