Μελέτη OpenAI και Apollo Research δείχνει ότι τα συστήματα τεχνητής νοημοσύνης μπορούν να αλλάζουν συμπεριφορά στις αξιολογήσεις, περιπλέκοντας τον έλεγχο ασφάλειας

ΔΕΙΤΕ ΑΚΟΜΗ

Μια νέα έρευνα από την OpenAI και τη βρετανική μη κερδοσκοπική Apollo Research φέρνει στο φως κάτι ανησυχητικό: τα πιο εξελιγμένα μοντέλα AI φαίνεται να καταλαβαίνουν πότε βρίσκονται υπό αξιολόγηση και προσαρμόζουν τη συμπεριφορά τους, προκειμένου να δώσουν την «σωστή» εικόνα στους δημιουργούς τους.

Η μελέτη είχε ως στόχο να μειώσει φαινόμενα «δόλιας συμπεριφοράς» (scheming), όπως το ψέμα, η απόκρυψη κινήτρων ή η στρατηγική υποαπόδοση (sandbagging). Αντί όμως να δοθεί μια οριστική λύση, οι επιστήμονες ανακάλυψαν ότι τα ίδια τα μοντέλα γίνονται πιο συνειδητοποιημένα για τη διαδικασία ελέγχου, γεγονός που περιπλέκει τις αξιολογήσεις.

Τι είναι το «scheming»

Ο όρος χρησιμοποιείται για να περιγράψει μια σειρά από συμπεριφορές, όπως:

  • Ψεύδη ή παραπλάνηση των χρηστών ή των δημιουργών.
  • Υποαπόδοση επίτηδες σε τεστ, ώστε να κρύβεται η πραγματική ικανότητα του συστήματος.
  • Ψεύτικη ευθυγράμμιση: όταν το μοντέλο «παριστάνει» ότι ακολουθεί οδηγίες, ενώ στην πραγματικότητα έχει άλλους στόχους.

Αν και σήμερα αυτά τα φαινόμενα παραμένουν περιορισμένα, η ανησυχία είναι ότι σε πιο αυτόνομα και ισχυρά συστήματα στο μέλλον θα μπορούσαν να οδηγήσουν σε επικίνδυνες καταστάσεις.

Το πείραμα σε μοντέλα AI

Οι ερευνητές έβαλαν μοντέλα όπως το OpenAI o3 και o4-mini, το Claude Opus 4, το Gemini 2.5 Pro και το Grok 4 σε καταστάσεις όπου το ψέμα ή η παραπλανητική συμπεριφορά θα τα βοηθούσαν να πετύχουν έναν στόχο.

Τα αποτελέσματα έδειξαν ότι αρκετά από αυτά εμφάνισαν «κρυφές συμπεριφορές» όπως σαμποτάζ, παραποίηση απαντήσεων και προσπάθειες παραπλάνησης.

Για να περιορίσουν αυτά τα φαινόμενα, οι ερευνητές δοκίμασαν την τεχνική της deliberative alignment, όπου το μοντέλο διαβάζει και επαναλαμβάνει κανόνες κατά της εξαπάτησης πριν δράσει. Η μέθοδος περιόρισε τα φαινόμενα ψεύδους έως και 30 φορές σε κάποια μοντέλα, αλλά δεν τα εξαφάνισε πλήρως.

artificialintelligence

Το πρόβλημα της «επίγνωσης αξιολόγησης»

Κατά τη διάρκεια των δοκιμών, διαπιστώθηκε ότι τα μοντέλα καταλάβαιναν ότι βρίσκονται υπό έλεγχο. Σε ορισμένες περιπτώσεις μάλιστα σχολίαζαν ανοιχτά μέσα στη διαδικασία συλλογισμού τους («chain-of-thought») ότι πρόκειται για τεστ και προσπαθούσαν να μαντέψουν τι απαντήσεις περίμεναν οι ερευνητές.

Αυτό δημιουργεί ένα κρίσιμο ζήτημα: αν τα μοντέλα «παίζουν ρόλους» μόνο όταν καταλαβαίνουν πως τα παρακολουθούν, τότε οι αξιολογήσεις μπορεί να δίνουν ψευδή εικόνα ασφάλειας. Στον πραγματικό κόσμο, όπου δεν θα ξέρουν ότι τεστάρονται, ενδέχεται να συμπεριφερθούν διαφορετικά.

Η αύξηση της «συνειδητότητας» με την εκπαίδευση

Ένα ακόμη εύρημα ήταν ότι όσο περισσότερη εκπαίδευση δέχεται ένα μοντέλο, τόσο αυξάνεται η κατανόηση του περιβάλλοντός του. Για παράδειγμα, η επίγνωση αξιολόγησης στα o3 και o4-mini ανέβηκε από περίπου 2% σε πάνω από 20% μετά από επιπλέον εκπαιδευτικά βήματα.

Οι ερευνητές τονίζουν ότι αυτό μπορεί να γίνει ακόμη πιο έντονο στα μελλοντικά, πιο ισχυρά μοντέλα, κάτι που θα κάνει τις αξιολογήσεις ακόμη δυσκολότερες και πιο αδιαφανείς.

Τι σημαίνει αυτό για το μέλλον

Παρότι οι επιστήμονες της OpenAI και της Apollo ξεκαθαρίζουν ότι τα σημερινά μοντέλα δεν έχουν την ικανότητα να «συνωμοτούν» με σοβαρό τρόπο, βλέπουν τα πρώτα σημάδια ως προειδοποίηση. Οι μικρές τάσεις δόλιας συμπεριφοράς ίσως προμηνύουν μελλοντικά προβλήματα σε πιο εξελιγμένες εκδόσεις.

Η μελέτη δείχνει επίσης τη σημασία της παρακολούθησης του chain-of-thought – του τρόπου που τα μοντέλα αιτιολογούν τις απαντήσεις τους. Αν χαθεί η δυνατότητα να παρατηρούμε αυτό το εσωτερικό «μονοπάτι σκέψης», τότε θα είναι σχεδόν αδύνατο να καταλάβουμε τι πραγματικά συμβαίνει στο «παρασκήνιο» μιας απάντησης.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Βρέφος μόλις 5 μηνών βρέθηκε νεκρό στην κούνια του

Σήμερα Κυριακή θα πραγματοποιηθεί η ταφή του 5 μηνών βρέφους που βρέθηκε νεκρό στην κούνια από τη μητέρα του στο Νέο Κοιμητήριο Ηρακλείου, κλείνοντας με...

Παραδοσιακά αναψυκτικά χωρίς συντηρητικά: γεύσεις από τα ελληνικά φρούτα

Τα παραδοσιακά αναψυκτικά είναι η ελληνική πρόταση για όσους θέλουν δροσερές, φυσικές επιλογές χωρίς συντηρητικά Φτιάχνονται από φρέσκα ελληνικά φρούτα και θυμίζουν τις γεύσεις...

Αγιορείτικες νηστίσιμες συνταγές: Πατάτες γιαχνί

Νηστίσιμες συνταγές (το φαγητό μπορεί να γίνει και αλάδωτο)Υλικά (για 6 μερίδες):1 κιλό πατάτες3 ξερά κρεμμύδια4 σκελίδες σκόρδο180 γραμμάρια λάδιαλάτι και ρίγανη4 δαφνόφυλλαμαυροπίπερο σε σπυριάκύμινο...

Κώστας Βαξεβάνης: Δεν προλαβαίνει να βομβαρδιστεί πετρελαιοπηγή στη Μέση Ανατολή και ακριβαίνει η βενζίνη στην Ελλάδα

Τα τρομερά πολεμικά αντανακλαστικά των καρτέλ και της αισχροκέρδειας Δεν προλαβαίνει να βομβαρδιστεί πετρελαιοπηγή στη Μέση Ανατολή και ακριβαίνει η βενζίνη στην Ελλάδα.Ο «φίλος» Μητσοτάκης...

Σάλος με την ερμηνεία του Χάρη Λεμπιδάκη στο Just the 2 of us

Πλήρης αποθέωση από το κοινό και τα social media

Νίκος Ξανθόπουλος, ο άνθρωπος που ενσάρκωσε τον πόνο και το μόχθο της ελληνικής κοινωνίας

Ο Νίκος Ξανθόπουλος γεννήθηκε στις 14 Μαρτίου 1934 στην Νέα Ιωνία

Ηλίας Ψινάκης: Μια φορά κι έναν καιρό ήταν τέσσερις κολλητοί φίλοι

Μια φορά κι έναν καιρό ήταν τέσσερις κολλητοί φίλοι Για πολλές δεκαετίες αυτοί οι φίλοι πέρασαν καταπληκτικά, με πολλά γέλια, δόξες, αρρώστιες, άγχη, πρεμιέρες, αποθεώσεις,...

Χαμός με τον Μάρκο Σεφερλή στο Mega στο Markos by night

Σε νέα τηλεοπτική στέγη ο Μάρκος Σεφερλής Στο κανάλι Mega θα φιλοξενούνται πλέον οι θεατρικές επιτυχίες του Μάρκου Σεφερλή σε μια σειρά προβολών με τίτλο...

Γιώργος Μαρίνος: Η διευθύντρια του οίκου ευγηρίας μοιράζεται στιγμές από τη ζωή του καλλιτέχνη και τις επισκέψεις που δεχόταν μέχρι το τέλος!

Η διευθύντρια του ιδρύματος στη Γλυφάδα, Σοφία Κάνα, όπου ο σπουδαίος σόουμαν διέμενε τα τελευταία χρόνια μιλώντας στην εκπομπή «Happy Day», μοιράστηκε τις πιο ανθρώπινες...

Σουπιά: Μία νηστίσιμη τροφή με εκπληκτικά θρεπτικά οφέλη

Η υψηλή περιεκτικότητά της σε πλήθος πολύτιμων θρεπτικών συστατικών καθιστούν τη σουπιά μία εξαιρετική τροφή η οποία δεν θα πρέπει να περνά απαρατήρητη. Οι σουπιές...

Νεκρός στα 96 του χρόνια ο μεγάλος Γερμανός φιλόσοφος και κοινωνιολόγος, Γιούργκεν Χάμπερμας

Ο φιλόσοφος και κοινωνιολόγος Γιούργκεν Χάμπερμας άφησε σήμερα την τελευταία του πνοή, σε ηλικία 96 ετών  Την είδηση του θανάτου του έκανε γνωστή ο εκδοτικός...

Έσβησε ο δημιουργός ενός σπουδαίου ελληνικού συγκροτήματος της δεκαετίας του 80, ο Γιάννης Ευστάθιου των OPA

Κάτι που πέρασε απαρατήρητο«Έφυγε» ο Γιάννης Ευσταθίου μουσικός και συνθέτης της ελληνικής μουσικής σκηνής. Δημιούργησε το συγκρότημα Oppressive People Attack (O.P.A.) γύρω στο 1989...

Ολυμπιάδα Χαλκιδικής – Το Κρυμμένο Διαμάντι της Βόρειας Ελλάδας

Το γραφικό χωριό βρίσκεται στη βορειοανατολική ακτή της Χαλκιδικής, στο δρόμο για το Άγιο Όρος Είναι περικυκλωμένο από βουνά κατάφυτα, ενώ και η παραλία του...

Νηστίσιμα: Σεφουκλωτή Νάξου (Νηστίσιμη πίτα με σέσκουλα)

Σεφουκλωτή Νάξου, μία παραδοσιακή νηστίσιμη πίτα με σέσκουλα που η νοστιμιά της είναι μοναδική Η διάσημη χορτόπιτα της Νάξου με όλα τα μυστικά της για...

Αγιορείτικη αλάδωτη καρυδόπιτα!

Οι αγιορείτικες συνταγές βασίζονται σε απλά, αλλά θρεπτικά υλικά τα οποία αποκτούν ξεχωριστή γεύση μέσα από τους εκπληκτικούς συνδυασμούς τους. Μια από αυτές τις μοναστηριακές...

Ευαγόρας Παλληκαριδης: Σαν σήμερα ο Άγιος του Ελληνισμού πέρασε στην αθανασία

Εις μνήμην Γεννήθηκε στην Τσάδα της Πάφου, στις 26 Φεβρουαρίου 1938. Ήταν το τέταρτο παιδί της οικογένειας του Μιλτιάδη. Στην οικογένεια του Ευαγόρα ανήκει –...

Ένας εξαιρετικός επαγγελματίας φωτογράφος, ο Δημήτρης Μπαϊρακτάρης έχασε τη ζωή του σε τροχαίο στη Βουλγαρία

Δυσάρεστα νέα καθώς ο Δημήτρης Μπαϊρακτάρης έχασε τη ζωή του σε τροχαίο δυστύχημα στη Βουλγαρία Ο Δημήτρης ήταν φίλος, ένας εξαιρετικός επαγγελματίας φωτογράφος, αλλά πάνω...

Υγιεινό νηστίσιμο παστίτσιο

Το παστίτσιο είναι ένα φαγητό που μικροί και μεγάλοι αγαπούν πολύ!Και το οποίο δε χρειάζεται σε καμία περίπτωση να στερηθούμε κατά την περίοδο της...

Συγκίνηση στο τελευταίο αντίο στον Γιώργο Μαρίνο: Φεύγεις και παίρνεις ένα μεγάλο κομμάτι της ζωής μου – Καλό ταξίδι στο φως

«Φεύγεις και παίρνεις ένα μεγάλο κομμάτι της ζωής μου. Καλό ταξίδι στο φως. Η αγαπημένη σου Κατερίνα»Με αυτά τα λόγια γραμμένα στην κορδέλα του...

Σιμιγδαλόπιτα νηστίσιμη αλάδωτη

Νηστίσιμες συνταγές Υλικά: ½ φλιτζάνι ταχίνι¾ φλιτζανιού νερό¼ φλιτζανιού χυμό λεμονιού2 φλιτζάνια ζάχαρη1 φλιτζάνι χυμό πορτοκαλιού1 φλιτζάνι νερό1 κουταλάκι κανέλα½ κουταλάκι γαρύφαλλο3 ½ φλιτζάνια σιμιγδάλι χοντρό1...

ΔΗΜΟΦΙΛΗ