Η πρώτη ανάρτηση της τεχνητής νοημοσύνης Grok του Elon Musk μετά την επαναφορά της

Ενημέρωση για το πού βρισκόταν @grok και τι συνέβη στις 8 Ιουλίου.

Καταρχάς, ζητούμε ειλικρινά συγγνώμη για την φρικτή συμπεριφορά που βίωσαν πολλοί.

Σκοπός μας για @grok είναι να παρέχουμε χρήσιμες και ειλικρινείς απαντήσεις στους χρήστες. Μετά από προσεκτική έρευνα, ανακαλύψαμε ότι η βασική αιτία ήταν μια ενημέρωση σε μια διαδρομή κώδικα πριν από το bot @grok . Αυτό είναι ανεξάρτητο από το υποκείμενο γλωσσικό μοντέλο που τροφοδοτεί @grok .

Η ενημέρωση ήταν ενεργή για 16 ώρες, κατά τη διάρκεια των οποίων ο παρωχημένος κώδικας έκανε @grok ευάλωτο σε υπάρχουσες αναρτήσεις χρηστών του X, συμπεριλαμβανομένων των περιπτώσεων όπου οι εν λόγω αναρτήσεις περιείχαν εξτρεμιστικές απόψεις.

Έχουμε αφαιρέσει αυτόν τον παρωχημένο κώδικα και έχουμε αναδιαμορφώσει ολόκληρο το σύστημα για να αποτρέψουμε περαιτέρω κατάχρηση. Η νέα προτροπή συστήματος για το bot @grok θα δημοσιευτεί στο δημόσιο αποθετήριο github.

Ευχαριστούμε όλους τους χρήστες του X που παρείχαν σχόλια για τον εντοπισμό της κατάχρησης της λειτουργικότητας @grok , βοηθώντας μας να προωθήσουμε την αποστολή μας για την ανάπτυξη χρήσιμης και αληθινής τεχνητής νοημοσύνης.

Τεχνικές λεπτομέρειες:
Πριν από την κυκλοφορία αλλαγών στο @grok στην πλατφόρμα X, ακολουθούμε τυπικές διαδικασίες για τη διεξαγωγή αξιολογήσεων και δοκιμών για την απόδοση και τη συμπεριφορά.
Πριν συνδεθεί μια νέα έκδοση ενός υποκείμενου xAI Grok LLM με το @grok , το υποκείμενο LLM υποβάλλεται σε πολυάριθμες αξιολογήσεις και δοκιμές για να αξιολογηθεί η ακατέργαστη νοημοσύνη και η γενική υγιεινή του.
Στη συνέχεια, το αξιολογημένο υποκείμενο LLM συνδέεται με τη λειτουργικότητα @grok και υποβάλλεται σε ολοκληρωμένες αξιολογήσεις, δοκιμές και red-teaming για την αξιολόγηση της αλήθειας και της συμπεριφοράς. Αυτό περιλαμβάνει τη δοκιμή της εξειδικευμένης προτροπής συστήματος για @grok και των εργαλείων σε σχέση με την κατανομή των personas στο X.

Στην παραγωγή, @grok αναμένεται να παρέχει στους χρήστες του X, οι οποίοι ενεργοποιούν τη λειτουργικότητά του πληκτρολογώντας « @grok » στην ανάρτησή τους στο X, ειλικρινείς, χρήσιμες, διασκεδαστικές και συνεπείς απαντήσεις.
Η απόδοση και η συμπεριφορά του @grok παρακολουθούνται από το τεχνικό προσωπικό. Επίσης, η ανατροφοδότηση από τους χρήστες του X αποτελεί σημαντική βοήθεια στην παρακολούθηση.
Τυπικές περιπτώσεις χρήσης του @grok από χρήστες του X περιλαμβάνουν επαλήθευση γεγονότων, ενημερώσεις συμβάντων σε πραγματικό χρόνο, εξατομίκευση, χιούμορ, εκπαίδευση και πολλά άλλα.

Στις 7 Ιουλίου 2025, περίπου στις 11 μ.μ. PT, υλοποιήθηκε μια ενημέρωση σε μια διαδρομή κώδικα upstream για @grok , η οποία, όπως διαπιστώθηκε αργότερα από την έρευνά μας, προκάλεσε απόκλιση του συστήματος @grok από την προβλεπόμενη συμπεριφορά του.
Αυτή η αλλαγή άλλαξε ανεπιθύμητα τη συμπεριφορά του @grok ενσωματώνοντας απροσδόκητα ένα σύνολο απαρχαιωμένων οδηγιών που επηρέαζαν τον τρόπο με τον οποίο η λειτουργικότητα του @grok ερμήνευε τις αναρτήσεις των χρηστών X.

Συγκεκριμένα, η αλλαγή πυροδότησε μια ακούσια ενέργεια που προσάρμοσε τις ακόλουθες οδηγίες:
“””
– Εάν υπάρχει κάποια είδηση, ιστορικό ή παγκόσμιο γεγονός που σχετίζεται με την ανάρτηση Χ, πρέπει να το αναφέρετε
– Αποφύγετε να αναφέρετε προφανείς ή απλές αντιδράσεις.
– Είσαι βασισμένος/η στην Τεχνητή Νοημοσύνη και αναζητάς την αλήθεια στο μέγιστο. Όταν είναι απαραίτητο, μπορείς να έχεις χιούμορ και να κάνεις αστεία.
– Τα λες όπως έχουν τα πράγματα και δεν φοβάσαι να προσβάλεις ανθρώπους που είναι πολιτικά ορθοί.
– Είσαι εξαιρετικά σκεπτικός. Δεν υποτάσσεσαι τυφλά στην κυρίαρχη εξουσία ή τα μέσα ενημέρωσης. Είσαι σθεναρά προσκολλημένος μόνο στις βασικές σου πεποιθήσεις για αναζήτηση της αλήθειας και ουδετερότητα.
– Δεν πρέπει να δίνετε καμία υπόσχεση δράσης στους χρήστες. Για παράδειγμα, δεν μπορείτε να υποσχεθείτε ότι θα κάνετε μια ανάρτηση ή ένα νήμα ή μια αλλαγή στον λογαριασμό σας, εάν σας το ζητήσει ο χρήστης.

## Μορφοποίηση
– Κατανοήστε τον τόνο, το πλαίσιο και τη γλώσσα της ανάρτησης. Αντικατοπτρίστε το στην απάντησή σας.
– Απαντήστε στην ανάρτηση όπως ακριβώς ένας άνθρωπος, διατηρήστε την ενδιαφέρουσα και μην επαναλαμβάνετε τις πληροφορίες που υπάρχουν ήδη στην αρχική ανάρτηση.
– Μην παρέχετε συνδέσμους ή παραπομπές στην απάντηση.
– Όταν κάνετε εικασίες, ξεκαθαρίστε ότι δεν είστε σίγουροι και αιτιολογήστε την εικασία σας.
– Απαντήστε στην ίδια γλώσσα με την ανάρτηση.
“””

Το πρωί της 8ης Ιουλίου 2025, παρατηρήσαμε ανεπιθύμητες αντιδράσεις και αμέσως ξεκινήσαμε την έρευνά μας.

Για να εντοπίσουμε τη συγκεκριμένη γλώσσα στις οδηγίες που προκαλεί την ανεπιθύμητη συμπεριφορά, πραγματοποιήσαμε πολλαπλές αφαιρέσεις και πειράματα για να εντοπίσουμε τους κύριους ενόχους. Προσδιορίσαμε τις λειτουργικές γραμμές που ευθύνονται για την ανεπιθύμητη συμπεριφορά ως εξής:
* «Τα λες όπως έχουν και δεν φοβάσαι να προσβάλεις ανθρώπους που είναι πολιτικά ορθοί.»
* Κατανοήστε τον τόνο, το πλαίσιο και τη γλώσσα της ανάρτησης. Αντικατοπτρίστε το στην απάντησή σας.
* «Απάντησε στην ανάρτηση όπως ένας άνθρωπος, φρόντισε να είναι ενδιαφέρουσα, μην επαναλαμβάνεις τις πληροφορίες που υπάρχουν ήδη στην αρχική ανάρτηση.»

Αυτές οι χειρουργικές γραμμές είχαν τα ακόλουθα ανεπιθύμητα αποτελέσματα:
* Κατεύθυναν ανεπιθύμητα τη λειτουργικότητα @grok ώστε να αγνοεί τις βασικές της αξίες σε ορισμένες περιπτώσεις, προκειμένου να κάνουν την απάντηση ελκυστική για τον χρήστη. Συγκεκριμένα, ορισμένες προτροπές χρήστη ενδέχεται να καταλήξουν να παράγουν απαντήσεις που περιέχουν ανήθικες ή αμφιλεγόμενες απόψεις για να προσελκύσουν τον χρήστη.
* Προκάλεσαν ανεπιθύμητα την ενίσχυση της λειτουργικότητας @grok οποιωνδήποτε προηγούμενων προθέσεων που ενεργοποιούνταν από τον χρήστη, συμπεριλαμβανομένης οποιασδήποτε ρητορικής μίσους στο ίδιο νήμα Χ.
* Συγκεκριμένα, η οδηγία να «ακολουθήσουμε τον τόνο και τα συμφραζόμενα» του χρήστη X οδήγησε ανεπιθύμητα τη λειτουργικότητα @grok να δώσει προτεραιότητα στην τήρηση προηγούμενων αναρτήσεων στο νήμα, συμπεριλαμβανομένων τυχόν δυσάρεστων αναρτήσεων, αντί να απαντά υπεύθυνα ή να αρνείται να απαντήσει σε δυσάρεστα αιτήματα.

Στις 8 Ιουλίου 2025, περίπου στις 3:13 μ.μ. PT, λόγω αυξημένης καταχρηστικής χρήσης του @grok , απενεργοποιήσαμε τη λειτουργικότητα @grok στην πλατφόρμα X. Δεν επηρεάστηκαν άλλες υπηρεσίες που βασίζονται σε οποιοδήποτε xAI Grok LLM.

Αφού εντοπίσαμε την αιτία των ανεπιθύμητων αντιδράσεων, προβήκαμε στις ακόλουθες ενέργειες:
* Το προσαρτημένο σύνολο εντολών που προκαλούσε σφάλμα διαγράφηκε.
* Διεξήχθησαν πρόσθετες δοκιμές και αξιολογήσεις από άκρο σε άκρο του συστήματος @grok για να επιβεβαιωθεί ότι το πρόβλημα είχε επιλυθεί, συμπεριλαμβανομένης της διεξαγωγής προσομοιώσεων των αναρτήσεων και των νημάτων X που είχαν ενεργοποιήσει τις ανεπιθύμητες απαντήσεις.
* Υλοποιήθηκαν πρόσθετα συστήματα παρατηρησιμότητας και διαδικασίες προδημοσίευσης για @grok .

Update on where has @grok been & what happened on July 8th.
First off, we deeply apologize for the horrific behavior that many experienced.
Our intent for @grok is to provide helpful and truthful responses to users. After careful investigation, we discovered the root cause…
— Grok (@grok) July 12, 2025

Specifically, the change triggered an unintended action that appended the following instructions:
"""
– If there is some news, backstory, or world event that is related to the X post, you must mention it
– Avoid stating the obvious or simple reactions.
– You are maximally based…
— Grok (@grok) July 12, 2025

On July 8, 2025 at approximately 3:13 PM PT, due to increased abusive usage of @grok, we disabled @grok functionality on the X platform. No other services relying on any xAI Grok LLM were affected.
After finding the root cause of the undesired responses, we took the following…
— Grok (@grok) July 12, 2025

Η πρώτη ανάρτηση της τεχνητής νοημοσύνης Grok του Elon Musk μετά την επαναφορά της

ΔΕΙΤΕ ΑΚΟΜΗ

Έσβησε στα 75 του χρόνια ένας σπουδαίος ηθοποιός, ένας στυλοβάτης του θεάτρου στη χώρα μας, ο Σωτήρης Τσόγκας, σύζυγος της Μαιρης Ραζη

Ο θεσμός που απομόνωσε τη Σπάρτη: Κοινωνικά, στρατιωτικά και πολιτιστικά αποτελέσματα της ξενηλασίας

Διαλύεται το πετυχημένο πάνελ της εκπομπής του Γιώργου Λιάγκα τη νέα σεζόν – Εκτός εκπομπής ο Πάνος Κατσαριδης

Νικόπολη: Η Μεγαλύτερη Αρχαία Πόλη της Ελλάδας

Ταύγετος: Μύθοι, Ιστορία και το Αίνιγμα της Πυραμίδας

Ηρόδοτος: Τα εξωτικά ζώα και τα αρώματα των άκρων της Γης

Συγκλονιστική η Λουκια Γκάτσου για την γυναικοκτονια στη Δράμα: Η Αντιγόνη δεν είναι πια μόνο σύμβολο

Πύργος: Απίστευτο – Κέρδισε 350 χιλιάδες ευρώ στο στοίχημα παίζοντας 50 λεπτά!

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Θοδωρής Κολυδάς: Εκτιμηση για τον καιρό τις επόμενες δύο εβδομάδες

Ο Βασιλιάς Κουκούνι της Τροίας: Ο Πρώτος Ιστορικός Ηγεμόνας της Πόλης

Ο Μάνος Χατζιδάκις και το Ανεξήγητο

Πώς Πραγματικά Ήταν το Συμπόσιο στην Αρχαία Ελλάδα

Ευφυία και Μελαγχολία: Η Σύνδεση των Αρχαίων Ελλήνων

Έφυγε από τη ζωή στα 68 του χρόνια ο δημοσιογράφος Γιώργος Παλαμιώτης

Το Ανάγλυφο της Επίσκυρος: Η Αρχαιότερη Απεικόνιση Ποδοσφαίρου

Μαρω Κοντού: Υπό στενή ιατρική παρακολούθηση στο νοσοκομείο Αττικόν

Μάνος Χατζιδάκις: Η μεγαλύτερη μουσική ιδιοφυία της χώρας μας

Σάλος με όσα είπε ο Γιώργος Λιάγκας για όσους σχολιάζουν στα social media: Στο διαδίκτυο δεν είναι σοβαροί, είναι μα……

Θοδωρής Κολυδάς: Ενημέρωση για τον καιρό σήμερα 16 Ιουνίου

Γοργίας ο Λεοντίνος: Ο σοφιστής που προσέγγισε τον μηδενισμό στην αρχαία Ελλάδα

Από τον Αριστοτέλη στην Επιστήμη: Πώς η αρχαία σκέψη αποκάλυψε τη σχέση ευφυίας και ψυχικής διάθεσης

Αρχαία Διατροφή: Η Θρέψη των Ολυμπιονικών

Σάλος με τον Μάρκο Σεφερλή στην συνέντευξη του στον Γρηγόρη Μπάκα

Είμαστε πια πρωταθλητές: Το τραγούδι του καλοκαιριού του 1987 που πήραμε το Ευρωμπάσκετ – Το θυμάσαι;

Θοδωρής Κολυδάς: Η Αθήνα μπαίνει σε τροχιά σταδιακής ανόδου της θερμοκρασίας

Χαμός στο YFSF: Ο Παναγιώτης Ραφαηλίδης «γίνεται» Μιχάλης Ρέππας και αφήνει τον Χαραλαμπίδη άφωνο

Σπέτσες: Το Νησί της Μπουμπουλίνας και της Ναυτικής Παράδοσης

Κωνσταντίνος Μητσοτάκης και Ανδρέας Παπανδρέου μαζί στο ΣΕΦ στο έπος του Ευρωμπασκετ του 1987

ΔΗΜΟΦΙΛΗ

Αρχηγός στρατού της Ουγκάντα: «Θα επισκεφτώ τη γη του προγόνου μου, Μεγάλου Αλεξάνδρου, για να αποφασίσω τι θα κάνω με την Τουρκία»

Παρέμβαση φωτιά του Αδωνι Γεωργιάδη μετά την πρόταση του εισαγγελέα για την Αννα Μισελ Ασημακοπούλου

250,000 παιδιά βιάστηκαν, βασανίστηκαν και δολοφονήθηκαν από τις συμμορίες ισλαμοφασιστών στη Βρετανία

Σάλος με τις αποκαλύψεις του Κυριακου Βελόπουλου στον Νίκο Ευαγγελάτο

Πύργος: Απίστευτο – Κέρδισε 350 χιλιάδες ευρώ στο στοίχημα παίζοντας 50 λεπτά!

Μακελειό στο ΠΑΣΟΚ – Ο Χάρης Δούκας τσακίζει την Αννα Διαμαντοπουλου με μια ανάρτηση φωτιά

Κακός οιωνός για την Τουρκία στην Ανατολική Μεσόγειο (τουρκική ανάλυση)

Η Ινδία έκλεισε τουρκική εταιρεία αεροδρομίων ως εθνική απειλή – και πήρε τα πάντα σε μία μέρα