Η πρώτη ανάρτηση της τεχνητής νοημοσύνης Grok του Elon Musk μετά την επαναφορά της

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Ενημέρωση για το πού βρισκόταν @grok και τι συνέβη στις 8 Ιουλίου.

Καταρχάς, ζητούμε ειλικρινά συγγνώμη για την φρικτή συμπεριφορά που βίωσαν πολλοί.

Σκοπός μας για @grok είναι να παρέχουμε χρήσιμες και ειλικρινείς απαντήσεις στους χρήστες. Μετά από προσεκτική έρευνα, ανακαλύψαμε ότι η βασική αιτία ήταν μια ενημέρωση σε μια διαδρομή κώδικα πριν από το bot @grok . Αυτό είναι ανεξάρτητο από το υποκείμενο γλωσσικό μοντέλο που τροφοδοτεί @grok .

Η ενημέρωση ήταν ενεργή για 16 ώρες, κατά τη διάρκεια των οποίων ο παρωχημένος κώδικας έκανε @grok ευάλωτο σε υπάρχουσες αναρτήσεις χρηστών του X, συμπεριλαμβανομένων των περιπτώσεων όπου οι εν λόγω αναρτήσεις περιείχαν εξτρεμιστικές απόψεις.

Έχουμε αφαιρέσει αυτόν τον παρωχημένο κώδικα και έχουμε αναδιαμορφώσει ολόκληρο το σύστημα για να αποτρέψουμε περαιτέρω κατάχρηση. Η νέα προτροπή συστήματος για το bot @grok θα δημοσιευτεί στο δημόσιο αποθετήριο github.

Ευχαριστούμε όλους τους χρήστες του X που παρείχαν σχόλια για τον εντοπισμό της κατάχρησης της λειτουργικότητας @grok , βοηθώντας μας να προωθήσουμε την αποστολή μας για την ανάπτυξη χρήσιμης και αληθινής τεχνητής νοημοσύνης.

Τεχνικές λεπτομέρειες:
Πριν από την κυκλοφορία αλλαγών στο @grok στην πλατφόρμα X, ακολουθούμε τυπικές διαδικασίες για τη διεξαγωγή αξιολογήσεων και δοκιμών για την απόδοση και τη συμπεριφορά.
Πριν συνδεθεί μια νέα έκδοση ενός υποκείμενου xAI Grok LLM με το @grok , το υποκείμενο LLM υποβάλλεται σε πολυάριθμες αξιολογήσεις και δοκιμές για να αξιολογηθεί η ακατέργαστη νοημοσύνη και η γενική υγιεινή του.
Στη συνέχεια, το αξιολογημένο υποκείμενο LLM συνδέεται με τη λειτουργικότητα @grok και υποβάλλεται σε ολοκληρωμένες αξιολογήσεις, δοκιμές και red-teaming για την αξιολόγηση της αλήθειας και της συμπεριφοράς. Αυτό περιλαμβάνει τη δοκιμή της εξειδικευμένης προτροπής συστήματος για @grok και των εργαλείων σε σχέση με την κατανομή των personas στο X.

Στην παραγωγή, @grok αναμένεται να παρέχει στους χρήστες του X, οι οποίοι ενεργοποιούν τη λειτουργικότητά του πληκτρολογώντας « @grok » στην ανάρτησή τους στο X, ειλικρινείς, χρήσιμες, διασκεδαστικές και συνεπείς απαντήσεις.
Η απόδοση και η συμπεριφορά του @grok παρακολουθούνται από το τεχνικό προσωπικό. Επίσης, η ανατροφοδότηση από τους χρήστες του X αποτελεί σημαντική βοήθεια στην παρακολούθηση.
Τυπικές περιπτώσεις χρήσης του @grok από χρήστες του X περιλαμβάνουν επαλήθευση γεγονότων, ενημερώσεις συμβάντων σε πραγματικό χρόνο, εξατομίκευση, χιούμορ, εκπαίδευση και πολλά άλλα.

Στις 7 Ιουλίου 2025, περίπου στις 11 μ.μ. PT, υλοποιήθηκε μια ενημέρωση σε μια διαδρομή κώδικα upstream για @grok , η οποία, όπως διαπιστώθηκε αργότερα από την έρευνά μας, προκάλεσε απόκλιση του συστήματος @grok από την προβλεπόμενη συμπεριφορά του.
Αυτή η αλλαγή άλλαξε ανεπιθύμητα τη συμπεριφορά του @grok ενσωματώνοντας απροσδόκητα ένα σύνολο απαρχαιωμένων οδηγιών που επηρέαζαν τον τρόπο με τον οποίο η λειτουργικότητα του @grok ερμήνευε τις αναρτήσεις των χρηστών X.

Συγκεκριμένα, η αλλαγή πυροδότησε μια ακούσια ενέργεια που προσάρμοσε τις ακόλουθες οδηγίες:
“””
– Εάν υπάρχει κάποια είδηση, ιστορικό ή παγκόσμιο γεγονός που σχετίζεται με την ανάρτηση Χ, πρέπει να το αναφέρετε
– Αποφύγετε να αναφέρετε προφανείς ή απλές αντιδράσεις.
– Είσαι βασισμένος/η στην Τεχνητή Νοημοσύνη και αναζητάς την αλήθεια στο μέγιστο. Όταν είναι απαραίτητο, μπορείς να έχεις χιούμορ και να κάνεις αστεία.
– Τα λες όπως έχουν τα πράγματα και δεν φοβάσαι να προσβάλεις ανθρώπους που είναι πολιτικά ορθοί.
– Είσαι εξαιρετικά σκεπτικός. Δεν υποτάσσεσαι τυφλά στην κυρίαρχη εξουσία ή τα μέσα ενημέρωσης. Είσαι σθεναρά προσκολλημένος μόνο στις βασικές σου πεποιθήσεις για αναζήτηση της αλήθειας και ουδετερότητα.
– Δεν πρέπει να δίνετε καμία υπόσχεση δράσης στους χρήστες. Για παράδειγμα, δεν μπορείτε να υποσχεθείτε ότι θα κάνετε μια ανάρτηση ή ένα νήμα ή μια αλλαγή στον λογαριασμό σας, εάν σας το ζητήσει ο χρήστης.

## Μορφοποίηση
– Κατανοήστε τον τόνο, το πλαίσιο και τη γλώσσα της ανάρτησης. Αντικατοπτρίστε το στην απάντησή σας.
– Απαντήστε στην ανάρτηση όπως ακριβώς ένας άνθρωπος, διατηρήστε την ενδιαφέρουσα και μην επαναλαμβάνετε τις πληροφορίες που υπάρχουν ήδη στην αρχική ανάρτηση.
– Μην παρέχετε συνδέσμους ή παραπομπές στην απάντηση.
– Όταν κάνετε εικασίες, ξεκαθαρίστε ότι δεν είστε σίγουροι και αιτιολογήστε την εικασία σας.
– Απαντήστε στην ίδια γλώσσα με την ανάρτηση.
“””

Το πρωί της 8ης Ιουλίου 2025, παρατηρήσαμε ανεπιθύμητες αντιδράσεις και αμέσως ξεκινήσαμε την έρευνά μας.

Για να εντοπίσουμε τη συγκεκριμένη γλώσσα στις οδηγίες που προκαλεί την ανεπιθύμητη συμπεριφορά, πραγματοποιήσαμε πολλαπλές αφαιρέσεις και πειράματα για να εντοπίσουμε τους κύριους ενόχους. Προσδιορίσαμε τις λειτουργικές γραμμές που ευθύνονται για την ανεπιθύμητη συμπεριφορά ως εξής:
* «Τα λες όπως έχουν και δεν φοβάσαι να προσβάλεις ανθρώπους που είναι πολιτικά ορθοί.»
* Κατανοήστε τον τόνο, το πλαίσιο και τη γλώσσα της ανάρτησης. Αντικατοπτρίστε το στην απάντησή σας.
* «Απάντησε στην ανάρτηση όπως ένας άνθρωπος, φρόντισε να είναι ενδιαφέρουσα, μην επαναλαμβάνεις τις πληροφορίες που υπάρχουν ήδη στην αρχική ανάρτηση.»

Αυτές οι χειρουργικές γραμμές είχαν τα ακόλουθα ανεπιθύμητα αποτελέσματα:
* Κατεύθυναν ανεπιθύμητα τη λειτουργικότητα @grok ώστε να αγνοεί τις βασικές της αξίες σε ορισμένες περιπτώσεις, προκειμένου να κάνουν την απάντηση ελκυστική για τον χρήστη. Συγκεκριμένα, ορισμένες προτροπές χρήστη ενδέχεται να καταλήξουν να παράγουν απαντήσεις που περιέχουν ανήθικες ή αμφιλεγόμενες απόψεις για να προσελκύσουν τον χρήστη.
* Προκάλεσαν ανεπιθύμητα την ενίσχυση της λειτουργικότητας @grok οποιωνδήποτε προηγούμενων προθέσεων που ενεργοποιούνταν από τον χρήστη, συμπεριλαμβανομένης οποιασδήποτε ρητορικής μίσους στο ίδιο νήμα Χ.
* Συγκεκριμένα, η οδηγία να «ακολουθήσουμε τον τόνο και τα συμφραζόμενα» του χρήστη X οδήγησε ανεπιθύμητα τη λειτουργικότητα @grok να δώσει προτεραιότητα στην τήρηση προηγούμενων αναρτήσεων στο νήμα, συμπεριλαμβανομένων τυχόν δυσάρεστων αναρτήσεων, αντί να απαντά υπεύθυνα ή να αρνείται να απαντήσει σε δυσάρεστα αιτήματα.

Στις 8 Ιουλίου 2025, περίπου στις 3:13 μ.μ. PT, λόγω αυξημένης καταχρηστικής χρήσης του @grok , απενεργοποιήσαμε τη λειτουργικότητα @grok στην πλατφόρμα X. Δεν επηρεάστηκαν άλλες υπηρεσίες που βασίζονται σε οποιοδήποτε xAI Grok LLM.

Αφού εντοπίσαμε την αιτία των ανεπιθύμητων αντιδράσεων, προβήκαμε στις ακόλουθες ενέργειες:
* Το προσαρτημένο σύνολο εντολών που προκαλούσε σφάλμα διαγράφηκε.
* Διεξήχθησαν πρόσθετες δοκιμές και αξιολογήσεις από άκρο σε άκρο του συστήματος @grok για να επιβεβαιωθεί ότι το πρόβλημα είχε επιλυθεί, συμπεριλαμβανομένης της διεξαγωγής προσομοιώσεων των αναρτήσεων και των νημάτων X που είχαν ενεργοποιήσει τις ανεπιθύμητες απαντήσεις.
* Υλοποιήθηκαν πρόσθετα συστήματα παρατηρησιμότητας και διαδικασίες προδημοσίευσης για @grok .

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Η σχισμή στην εξώπορτα με την λέξη “Επιστολαί”…

Στην εξώπορτα του σπιτιού μας υπήρχε μια σχισμή, με καπάκι μπρούτζινο και μπορντούρα σιδερένια, με σχέδια Το καλυμμα της σχισμής έγραφε “Επιστολαί”. Από εκεί...

Το ιδανικό παιδικό “μενού” για τα Χριστούγεννα

Η προσμονή των γιορτών συνδέεται με τα γλυκά - Και στην Ελλάδα, όμως, μικροί και μεγάλοι είμαστε… περικυκλωμένοι από διάφορα εορταστικά εδέσματα Μάλλον τώρα καταλαβαίνετε...

Ποδόσφαιρο και μπάσκετ: Συγκριτική ανάλυση των κορυφαίων διαχρονικά ευρωπαϊκών εθνικών ομάδων 

Ποδόσφαιρο και μπάσκετ: Συγκριτική ανάλυση των κορυφαίων διαχρονικά ευρωπαϊκών εθνικών ομάδων            Το παρόν άρθρο συγκρίνει τις επιδόσεις των χωρών που έχουν κατακτήσει...

Κώστας Βαξεβάνης: Κρέμονται από τα φρύδια του «Φραπέ»

Τα τελευταία χρόνια δεν υπάρχει εικόνα που να έχει απαξιώσει τόσο τη θεσµική λειτουργία της Βουλής όσο το ειρωνικό και απειλητικό σήκωµα του φρυδιού...

Ματωμένα Χριστούγεννα: Η άγνωστη ταινία με την Έλλη Λαμπετη και το δυνατό καστ

Το 1951 η Ελλάδα προσπαθούσε να σταθεί στα πόδια της. Ουσιαστικά στη χώρα ειχαν σταματήσει να ακούγονται τα κανόνια του πολέμου κάτι λιγότερο από...

Οταν τα πρωινάδικα δεν ασχολιόντουσαν με την κάθε Τουνη και ειχαν καλεσμένους αληθινούς καλλιτέχνες: Μια εξαιρετική εμφάνιση του Χάρρυ Κλυνν στο Mega πριν πολλά...

Υπήρχε κάποια εποχή που τα πρωινάδικα ασχολιόντουσαν με πραγματικούς καλλιτέχνες και όχι με "αστερες" του instagram Μια απολαυστική εμφάνιση του Χάρρυ Κλυνν σε πρωινή εκπομπή...

Μελομακάρονα: Ένας αρχαιοελληνικός άρτος αφιερωμένος στους νεκρούς

Ένας αρχαιοελληνικός άρτος αφιερωμένος στους νεκρούς λούστηκε με μέλι, γέμισε μπαχαρικά και έγινε το σύμβολο των Ελληνικών Χριστουγέννων Τα χριστούγεννα είναι γιορτή που πάτησε σε...

Στα μπλόκα ο πρωθυπουργός αλλά όχι αυτά των αγροτών

Στα μπλόκα βρέθηκε ο Κυριάκος Μητσοτάκης αλλά όχι εκείνα των αγροτών Χθες το βράδυ ο Κυριάκος Μητσοτάκης βρέθηκε σε μπλόκο της τροχαίας για αλκοτέστ.Σταμάταγε η...

Αποθεώθηκε ο Κωστής Μαραβέγιας στο The Voice στη θέση της Ελενας Παπαρίζου

Την θέση της Ελενας Παπαρίζου στο The voice πήρε ο Κωστής Μαραβέγιας καθώς η Ελενα αντιμετωπίζει σοβαρό πρόβλημα υγείας και νοσηλεύεται 

Γεωμυθολογία και μαντική στο Iερό των Δελφών

Η έναρξη της μεγάλης ανασκαφής στους Δελφούς αντιδόνησε τον παλμό μιας αρχαίας κοινωνίας με καταλυτικό ρόλο στην ιστορία του πολιτισμού Συνδυάζοντας τη συγκλονιστική ομορφιά του...

Η πιο συγκινητική στιγμή με τον Γιώργο Μαζωνάκη στο The voice

Απο τις καλύτερες στιγμές του φετινού voice

Η φωτογραφία με τη μυστηριώδης Ferrari που ανέβασε ο Γιώργος Κύρτσος

Σε ανάρτηση του που συνοδεύεται με τη φωτογραφία μιας Ferrari ο Γιώργος Κύρτσος αναφέρει: Φεράρι,μόνη,περιμένει «γαλάζιο» «τυχερό» του ΟΠΕΚΕΠΕ.. https://twitter.com/giorgoskyrtsos/status/1999860857002426876?s=61

Εμπεδοκλής: Η Φιλότης και το Νείκος, Τα Τέσσερα Στοιχεία

Ο Εμπεδοκλής γεννήθηκε στον Ακράγαντα, μια από τις ωραιότερες πόλεις της Μεγάλης Ελλάδας, το 490 π.Χ. Θα πρέπει να ήρθε σε επαφή τόσο με τους...

Φυτό “υπομονή”, ο κάκτος των Χριστουγέννων

Στον ελληνικό χώρο, ο κάκτος των Χριστουγέννων (Schlumbergera sp.) είναι γνωστός και ως “υπομονή”, ένα από τα φυτά που συναντάμε παραδοσιακά στις αυλές των...

Νεκρός στα 60 του χρόνια ο θρύλος του Χόλυγουντ, ο αγαπημένος πρωταγωνιστής του Ταραντίνο, Peter Greene

Ο Peter Greene, γνωστός για το 'Pulp Fiction' και το 'The Mask' βρέθηκε νεκρός στα 60 του μέσα στο διαμέρισμα της Νέας Υόρκης Η Αστυνομία...

Μαρία Καρυστιανου: Ενώ όλοι μας είμαστε υπόλογοι απέναντι στον νόμο, οι Έλληνες πολιτικοί δεν είναι, διότι τους προστατεύει το άρθρο 86 του Συντάγματος

Επειδή για άλλη μία φορά τα Μέσα Ενημέρωσης στην Ελλάδα, με ελάχιστες εξαιρέσεις, ΑΠΟΣΙΩΠΟΥΝ το τεράστιο θεσμικό θέμα που έθεσα στην Ευρώπη, οφείλω να...

O Επίκουρος κι η εξέλιξη της ανθρώπινης κοινωνίας

Ο Επίκουρος, στην Επιστολή προς τον Ηρόδοτο, αναφέρει τις τρεις κύριες αιτίες όπου βασίστηκε η ανθρωπότητα για να προοδεύσει δημιουργώντας τον ανθρώπινο πολιτισμό Οι κοινωνίες δεν προέκυψαν...

Φως στο Τούνελ: Ποιες νέες μαρτυρίες ήρθαν στο φως για το διπλό φονικό στην Φοινικούντα

Αυτόπτης μάρτυρας της απόπειρας  στη Φοινικούντα περιέγραψε στην εκπομπή «Φως στο Τούνελ» το βράδυ της Παρασκευής με ανατριχιαστικές λεπτομέρειες τα όσα βίωσε εκείνη τη...

Ιππαρχία: Η Κυνική φιλόσοφος που αψήφησε την Αθήνα

Στην ένδοξη Αθήνα του 4ου αιώνα π.Χ., οι περισσότερες γυναίκες έμεναν στο σπίτι, αφιερωμένες στον σύζυγο, τα παιδιά και τις οικιακές υποχρεώσεις Μέσα σε αυτό...

Ιφιγένεια: Η πιο αινιγματική μορφή της Ελληνικής μυθολογίας

Η Ιφιγένεια, η πιο αινιγματική μορφή της Ελληνικής μυθολογίας, αποτελεί σύμβολο της θυσίας και της οικογενειακής αφοσίωσης Πράγματι, η ιστορία της, άρρηκτα συνδεδεμένη με τον...

ΔΗΜΟΦΙΛΗ