Μελέτη OpenAI και Apollo Research δείχνει ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αλλάζουν συμπεριφορά στις αξιολογήσεις, περιπλέκοντας τον έλεγχο ασφάλειας

ΔΕΙΤΕ ΑΚΟΜΗ

Μια νέα έρευνα από την OpenAI και τη βρετανική μη κερδοσκοπική Apollo Research φέρνει στο φως κάτι ανησυχητικό: τα πιο εξελιγμένα μοντέλα AI φαίνεται να καταλαβαίνουν πότε βρίσκονται υπό αξιολόγηση και προσαρμόζουν τη συμπεριφορά τους, προκειμένου να δώσουν την «σωστή» εικόνα στους δημιουργούς τους.

Η μελέτη είχε ως στόχο να μειώσει φαινόμενα «δόλιας συμπεριφοράς» (scheming), όπως το ψέμα, η απόκρυψη κινήτρων ή η στρατηγική υποαπόδοση (sandbagging). Αντί όμως να δοθεί μια οριστική λύση, οι επιστήμονες ανακάλυψαν ότι τα ίδια τα μοντέλα γίνονται πιο συνειδητοποιημένα για τη διαδικασία ελέγχου, γεγονός που περιπλέκει τις αξιολογήσεις.

Τι είναι το «scheming»

Ο όρος χρησιμοποιείται για να περιγράψει μια σειρά από συμπεριφορές, όπως:

  • Ψεύδη ή παραπλάνηση των χρηστών ή των δημιουργών.
  • Υποαπόδοση επίτηδες σε τεστ, ώστε να κρύβεται η πραγματική ικανότητα του συστήματος.
  • Ψεύτικη ευθυγράμμιση: όταν το μοντέλο «παριστάνει» ότι ακολουθεί οδηγίες, ενώ στην πραγματικότητα έχει άλλους στόχους.

Αν και σήμερα αυτά τα φαινόμενα παραμένουν περιορισμένα, η ανησυχία είναι ότι σε πιο αυτόνομα και ισχυρά συστήματα στο μέλλον θα μπορούσαν να οδηγήσουν σε επικίνδυνες καταστάσεις.

Το πείραμα σε μοντέλα AI

Οι ερευνητές έβαλαν μοντέλα όπως το OpenAI o3 και o4-mini, το Claude Opus 4, το Gemini 2.5 Pro και το Grok 4 σε καταστάσεις όπου το ψέμα ή η παραπλανητική συμπεριφορά θα τα βοηθούσαν να πετύχουν έναν στόχο.

Τα αποτελέσματα έδειξαν ότι αρκετά από αυτά εμφάνισαν «κρυφές συμπεριφορές» όπως σαμποτάζ, παραποίηση απαντήσεων και προσπάθειες παραπλάνησης.

Για να περιορίσουν αυτά τα φαινόμενα, οι ερευνητές δοκίμασαν την τεχνική της deliberative alignment, όπου το μοντέλο διαβάζει και επαναλαμβάνει κανόνες κατά της εξαπάτησης πριν δράσει. Η μέθοδος περιόρισε τα φαινόμενα ψεύδους έως και 30 φορές σε κάποια μοντέλα, αλλά δεν τα εξαφάνισε πλήρως.

artificialintelligence

Το πρόβλημα της «επίγνωσης αξιολόγησης»

Κατά τη διάρκεια των δοκιμών, διαπιστώθηκε ότι τα μοντέλα καταλάβαιναν ότι βρίσκονται υπό έλεγχο. Σε ορισμένες περιπτώσεις μάλιστα σχολίαζαν ανοιχτά μέσα στη διαδικασία συλλογισμού τους («chain-of-thought») ότι πρόκειται για τεστ και προσπαθούσαν να μαντέψουν τι απαντήσεις περίμεναν οι ερευνητές.

Αυτό δημιουργεί ένα κρίσιμο ζήτημα: αν τα μοντέλα «παίζουν ρόλους» μόνο όταν καταλαβαίνουν πως τα παρακολουθούν, τότε οι αξιολογήσεις μπορεί να δίνουν ψευδή εικόνα ασφάλειας. Στον πραγματικό κόσμο, όπου δεν θα ξέρουν ότι τεστάρονται, ενδέχεται να συμπεριφερθούν διαφορετικά.

Η αύξηση της «συνειδητότητας» με την εκπαίδευση

Ένα ακόμη εύρημα ήταν ότι όσο περισσότερη εκπαίδευση δέχεται ένα μοντέλο, τόσο αυξάνεται η κατανόηση του περιβάλλοντός του. Για παράδειγμα, η επίγνωση αξιολόγησης στα o3 και o4-mini ανέβηκε από περίπου 2% σε πάνω από 20% μετά από επιπλέον εκπαιδευτικά βήματα.

Οι ερευνητές τονίζουν ότι αυτό μπορεί να γίνει ακόμη πιο έντονο στα μελλοντικά, πιο ισχυρά μοντέλα, κάτι που θα κάνει τις αξιολογήσεις ακόμη δυσκολότερες και πιο αδιαφανείς.

Τι σημαίνει αυτό για το μέλλον

Παρότι οι επιστήμονες της OpenAI και της Apollo ξεκαθαρίζουν ότι τα σημερινά μοντέλα δεν έχουν την ικανότητα να «συνωμοτούν» με σοβαρό τρόπο, βλέπουν τα πρώτα σημάδια ως προειδοποίηση. Οι μικρές τάσεις δόλιας συμπεριφοράς ίσως προμηνύουν μελλοντικά προβλήματα σε πιο εξελιγμένες εκδόσεις.

Η μελέτη δείχνει επίσης τη σημασία της παρακολούθησης του chain-of-thought – του τρόπου που τα μοντέλα αιτιολογούν τις απαντήσεις τους. Αν χαθεί η δυνατότητα να παρατηρούμε αυτό το εσωτερικό «μονοπάτι σκέψης», τότε θα είναι σχεδόν αδύνατο να καταλάβουμε τι πραγματικά συμβαίνει στο «παρασκήνιο» μιας απάντησης.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Η γιατρός Βάνα του Μεθοριακού Σταθμού δεν είναι πια εδώ: Εφυγε από τη ζωή η ηθοποιός Ελπίδα Μαζαράκη Ταρτα

Η γιατρός Βάνα του Μεθοριακού Σταθμού δεν είναι πια εδώ. Η Ελπίδα Μαζαράκη Τάρτα έφυγε να συναντήσει τον αγαπημένο της σύζυγο. Είναι ιδιαίτερα συγκινητικό να...

Αυτοκτόνησε διευθύντρια σχολείου πηδώντας από την ταράτσα του σπιτιού της στον Κολωνο

Μια 54χρονη γυναίκα άφησε την τελευταία της πνοή σήμερα το πρωί στον Κολωνο, πέφτοντας στο κενό από την ταράτσα της πολυκατοικίας της. Σύμφωνα με τις...

Η τραγική ιστορία του Μπόμπαν Γιάνκοβιτς που εφυγε από τη ζωή σε ηλικία 43 ετών σαν σήμερα το 2006

Σαν σήμερα, 28 Απριλίου,μια ημερομηνία που δεν είναι απλώς μια σελίδα στο ημερολόγιο αλλά ένα ανεξίτηλο σημάδι στη μνήμη του ελληνικού μπάσκετ, μια στιγμή...

89χρονος με καραμπίνα θερίζει κόσμο στον Κεραμεικο – Εισεβαλε αρχικά στον ΕΦΚΑ και διέφυγε

Διαστάσεις παίρνει η υπόθεση με τον 89χρονο ρακοσυλλέκτη ο οποίος νωρίτερα σήμερα μπήκε στο κτίριο του ΕΦΚΑ στον Κεραμεικό άνοιξε πυρ με καραμπίνα με αποτέλεσμα...

Σπάρτη: Το Κρυφό Μυστικό που την Έκανε Αήττητη

Πώς η Σπάρτη κυριάρχησε στην Αρχαία Ελλάδα; Για αιώνες, η απάντηση ήταν απλή: Οι Σπαρτιάτες ήταν ατρόμητοι πολεμιστές. Η εικόνα τους είχε συνδεθεί με ατσάλινη...

Τα Παναθήναια: Η Μεγαλύτερη Γιορτή της Αρχαίας Αθήνας

Τα Παναθήναια αποτελούσαν τη σπουδαιότερη, αρχαιότερη και πιο λαμπρή θρησκευτική και πολιτική εορτή της αρχαίας Αθήνας Τελούνταν προς τιμήν της Αθηνάς Πολιάδος, της προστάτιδας θεάς...

Έσβησε στα 51 της χρόνια μια αξιόλογη τραγουδίστρια, μια ξεχωριστή ερμηνεύτρια, η Νατασα Μοϋσογλου

Η υπερταλαντούχα Νατάσα Μωϋσόγλου δεν είναι πια μαζί μας. Αδύνατον να το πιστέψω!!Τη γνώρισα αρχικά εδώ στο Facebook και την ίδια προσωπικά στις συναυλίες που...

Ο αδερφός του διάσημου λεχρίτη Νουσρέτ Γκιοκτσέ, Όζγκιουρ Γκιοκτσέ συνελήφθη και φυλακίστηκε με την κατηγορία της «ανάμιξης σε πορνεία ανηλίκου»

Ο αδερφός του διάσημου λεχρίτη Νουσρέτ Γκιοκτσέ, Όζγκιουρ Γκιοκτσέ συνελήφθη και φυλακίστηκε με την κατηγορία της «ανάμιξης σε πορνεία ανηλίκου»📌 Ο Γκιοκτσέ συνελήφθη και...

Εξαντλητική Έρευνα και Ανάλυση των Αρχαίων Πηγών για τον Θεό Ερμή (Πέμπτο Μέρος)

Εικονογραφία, Σύμβολα και Ιερά Η εικαστική αναπαράσταση του Ερμή υπέστη μια από τις πλέον ριζικές μεταμορφώσεις στην ιστορία της αρχαίας ελληνικής τέχνης. Κατά την Αρχαϊκή...

Αλκμαίων ο Κροτωνιάτης: Ο γιατρός-φιλόσοφος που έβαλε τον εγκέφαλο στο κέντρο της σκέψης

Ποιος ήταν ο Αλκμαίων ο Κροτωνιάτης; Ο Αλκμαίων ο Κροτωνιάτης (5ος αιώνας π.Χ.) υπήρξε από τους πρώτους Έλληνες στοχαστές που συνέδεσαν τη φυσική φιλοσοφία με...

Μανδροκλής: Ο Έλληνας Μηχανικός που Ένωσε Δύο Ηπείρους

Ο Μανδροκλής ήταν ένας ευφυής Έλληνας μηχανικόςΟ Πέρσης βασιλιάς Δαρείος Α’ σχεδίαζε μια μεγάλη εκστρατεία. Ήθελε να εισβάλει στις σκυθικές περιοχές. Για τον σκοπό...

Πώς η αρχαία Ελληνική αρχιτεκτονική διαμόρφωσε τον σύγχρονο κόσμο

Η αρχαία Ελληνική αρχιτεκτονική, με την αναζήτηση της αρμονίας, της αναλογίας και της τελειότητας, έθεσε τα θεμέλια για την οικοδόμηση του δυτικού κόσμου Δεν έχτιζαν...

Σείστηκε η σκηνή του Your Face Sounds Familiar με την Αφροδίτη Χατζημηνά

Η Αφροδίτη Χατζημηνά με το Houdini της Dua Lipa για τρελό ρυθμό και pop στα ύψη!​

Επίκουρος: Ο θάνατος για μας είναι ένα τίποτα…

Κοίτα να συνηθίσεις στην ιδέα ότι ο θάνατος για μας είναι ένα τίποτα Κάθε καλό και κάθε κακό βρίσκεται στην αίσθηση μας όμως θάνατος σημαίνει...

Εξαντλητική Έρευνα και Ανάλυση των Αρχαίων Πηγών για τον Θεό Ερμή (Τέταρτο Μέρος)

Μείζονες Μυθολογικοί Κύκλοι και Παρεμβάσεις Οι αρχαίες πηγές, όπως η Βιβλιοθήκη του Ψευδο-Απολλόδωρου, οι Μυθολογίες(Fabulae) του Υγίνου, οι Μεταμορφώσεις του Οβιδίου και η ύστερη επική...

Ραγίζει καρδιές η ξομολόγηση του Αλέξανδρου Μπουρδούμη για το πώς έμαθε για τον θάνατο του αδελφού του λίγα λεπτά πριν βγει στη σκηνή

Στην εκπομπή «Σαββατοκύριακο Παρέα» μίλησε  ο Αλέξανδρος Μπουρδούμης, για μία από τις πιο δύσκολες στιγμές της ζωής του πάνω και έξω από τη σκηνή Ο...

Το κράνος του Μιλτιάδη

Η ανακάλυψη του κράνους του Μιλτιάδη Όταν ερευνητές ανακάλυψαν ένα υπέροχο κράνος στα ερείπια του ναού του Δία, δεν πίστευαν στα μάτια τους. Ένα αντικείμενο...

Πιο επίκαιρες απο ποτε οι φωτογραφιες που κυκλοφόρησαν απο το Τσερνόμπιλ 30 χρόνια μετά το ατυχημα

Πριν λίγο εγινε γνωστό πως έχει διακοπεί πλήρως η ηλεκτροδότηση του πυρηνικού σταθμού του Τσερνόμπιλ, στην Ουκρανία, εξαιτίας των ρωσικών στρατιωτικών ενεργειών, όπως ανακοίνωσε η...

Πως ο Θεμιστοκλής παγίδεψε τον Ξέρξη στη Ναυμαχία της Σαλαμίνας

Οραματιστής στρατηγός ο Θεμιστοκλής Μετά την πτώση των Θερμοπυλών και την καταστροφή της Αθήνας, η Περσική Αυτοκρατορία του Ξέρξη φαινόταν ανίκητη. Ο ελληνικός στόλος είχε...

Χαμός στο Κροατικό Your Face Sounds Familiar με την τραγουδίστρια που έκανε την Αννα Βισση – Την αποθέωσαν

Άκρως εντυπωσιακή η Nora Ćurković στον ρόλο  της  Άννας Βίσση καθώς  ερμηνεύει το θρυλικό hit της «Κανένας» (από το album Nylon του 2005) Η εμφάνιση...

ΔΗΜΟΦΙΛΗ