Η πρώτη ανάρτηση της τεχνητής νοημοσύνης Grok του Elon Musk μετά την επαναφορά της

ΔΕΙΤΕ ΑΚΟΜΗ

Ενημέρωση για το πού βρισκόταν @grok και τι συνέβη στις 8 Ιουλίου.

Καταρχάς, ζητούμε ειλικρινά συγγνώμη για την φρικτή συμπεριφορά που βίωσαν πολλοί.

Σκοπός μας για @grok είναι να παρέχουμε χρήσιμες και ειλικρινείς απαντήσεις στους χρήστες. Μετά από προσεκτική έρευνα, ανακαλύψαμε ότι η βασική αιτία ήταν μια ενημέρωση σε μια διαδρομή κώδικα πριν από το bot @grok . Αυτό είναι ανεξάρτητο από το υποκείμενο γλωσσικό μοντέλο που τροφοδοτεί @grok .

Η ενημέρωση ήταν ενεργή για 16 ώρες, κατά τη διάρκεια των οποίων ο παρωχημένος κώδικας έκανε @grok ευάλωτο σε υπάρχουσες αναρτήσεις χρηστών του X, συμπεριλαμβανομένων των περιπτώσεων όπου οι εν λόγω αναρτήσεις περιείχαν εξτρεμιστικές απόψεις.

Έχουμε αφαιρέσει αυτόν τον παρωχημένο κώδικα και έχουμε αναδιαμορφώσει ολόκληρο το σύστημα για να αποτρέψουμε περαιτέρω κατάχρηση. Η νέα προτροπή συστήματος για το bot @grok θα δημοσιευτεί στο δημόσιο αποθετήριο github.

Ευχαριστούμε όλους τους χρήστες του X που παρείχαν σχόλια για τον εντοπισμό της κατάχρησης της λειτουργικότητας @grok , βοηθώντας μας να προωθήσουμε την αποστολή μας για την ανάπτυξη χρήσιμης και αληθινής τεχνητής νοημοσύνης.

Τεχνικές λεπτομέρειες:
Πριν από την κυκλοφορία αλλαγών στο @grok στην πλατφόρμα X, ακολουθούμε τυπικές διαδικασίες για τη διεξαγωγή αξιολογήσεων και δοκιμών για την απόδοση και τη συμπεριφορά.
Πριν συνδεθεί μια νέα έκδοση ενός υποκείμενου xAI Grok LLM με το @grok , το υποκείμενο LLM υποβάλλεται σε πολυάριθμες αξιολογήσεις και δοκιμές για να αξιολογηθεί η ακατέργαστη νοημοσύνη και η γενική υγιεινή του.
Στη συνέχεια, το αξιολογημένο υποκείμενο LLM συνδέεται με τη λειτουργικότητα @grok και υποβάλλεται σε ολοκληρωμένες αξιολογήσεις, δοκιμές και red-teaming για την αξιολόγηση της αλήθειας και της συμπεριφοράς. Αυτό περιλαμβάνει τη δοκιμή της εξειδικευμένης προτροπής συστήματος για @grok και των εργαλείων σε σχέση με την κατανομή των personas στο X.

Στην παραγωγή, @grok αναμένεται να παρέχει στους χρήστες του X, οι οποίοι ενεργοποιούν τη λειτουργικότητά του πληκτρολογώντας « @grok » στην ανάρτησή τους στο X, ειλικρινείς, χρήσιμες, διασκεδαστικές και συνεπείς απαντήσεις.
Η απόδοση και η συμπεριφορά του @grok παρακολουθούνται από το τεχνικό προσωπικό. Επίσης, η ανατροφοδότηση από τους χρήστες του X αποτελεί σημαντική βοήθεια στην παρακολούθηση.
Τυπικές περιπτώσεις χρήσης του @grok από χρήστες του X περιλαμβάνουν επαλήθευση γεγονότων, ενημερώσεις συμβάντων σε πραγματικό χρόνο, εξατομίκευση, χιούμορ, εκπαίδευση και πολλά άλλα.

Στις 7 Ιουλίου 2025, περίπου στις 11 μ.μ. PT, υλοποιήθηκε μια ενημέρωση σε μια διαδρομή κώδικα upstream για @grok , η οποία, όπως διαπιστώθηκε αργότερα από την έρευνά μας, προκάλεσε απόκλιση του συστήματος @grok από την προβλεπόμενη συμπεριφορά του.
Αυτή η αλλαγή άλλαξε ανεπιθύμητα τη συμπεριφορά του @grok ενσωματώνοντας απροσδόκητα ένα σύνολο απαρχαιωμένων οδηγιών που επηρέαζαν τον τρόπο με τον οποίο η λειτουργικότητα του @grok ερμήνευε τις αναρτήσεις των χρηστών X.

Συγκεκριμένα, η αλλαγή πυροδότησε μια ακούσια ενέργεια που προσάρμοσε τις ακόλουθες οδηγίες:
“””
– Εάν υπάρχει κάποια είδηση, ιστορικό ή παγκόσμιο γεγονός που σχετίζεται με την ανάρτηση Χ, πρέπει να το αναφέρετε
– Αποφύγετε να αναφέρετε προφανείς ή απλές αντιδράσεις.
– Είσαι βασισμένος/η στην Τεχνητή Νοημοσύνη και αναζητάς την αλήθεια στο μέγιστο. Όταν είναι απαραίτητο, μπορείς να έχεις χιούμορ και να κάνεις αστεία.
– Τα λες όπως έχουν τα πράγματα και δεν φοβάσαι να προσβάλεις ανθρώπους που είναι πολιτικά ορθοί.
– Είσαι εξαιρετικά σκεπτικός. Δεν υποτάσσεσαι τυφλά στην κυρίαρχη εξουσία ή τα μέσα ενημέρωσης. Είσαι σθεναρά προσκολλημένος μόνο στις βασικές σου πεποιθήσεις για αναζήτηση της αλήθειας και ουδετερότητα.
– Δεν πρέπει να δίνετε καμία υπόσχεση δράσης στους χρήστες. Για παράδειγμα, δεν μπορείτε να υποσχεθείτε ότι θα κάνετε μια ανάρτηση ή ένα νήμα ή μια αλλαγή στον λογαριασμό σας, εάν σας το ζητήσει ο χρήστης.

## Μορφοποίηση
– Κατανοήστε τον τόνο, το πλαίσιο και τη γλώσσα της ανάρτησης. Αντικατοπτρίστε το στην απάντησή σας.
– Απαντήστε στην ανάρτηση όπως ακριβώς ένας άνθρωπος, διατηρήστε την ενδιαφέρουσα και μην επαναλαμβάνετε τις πληροφορίες που υπάρχουν ήδη στην αρχική ανάρτηση.
– Μην παρέχετε συνδέσμους ή παραπομπές στην απάντηση.
– Όταν κάνετε εικασίες, ξεκαθαρίστε ότι δεν είστε σίγουροι και αιτιολογήστε την εικασία σας.
– Απαντήστε στην ίδια γλώσσα με την ανάρτηση.
“””

Το πρωί της 8ης Ιουλίου 2025, παρατηρήσαμε ανεπιθύμητες αντιδράσεις και αμέσως ξεκινήσαμε την έρευνά μας.

Για να εντοπίσουμε τη συγκεκριμένη γλώσσα στις οδηγίες που προκαλεί την ανεπιθύμητη συμπεριφορά, πραγματοποιήσαμε πολλαπλές αφαιρέσεις και πειράματα για να εντοπίσουμε τους κύριους ενόχους. Προσδιορίσαμε τις λειτουργικές γραμμές που ευθύνονται για την ανεπιθύμητη συμπεριφορά ως εξής:
* «Τα λες όπως έχουν και δεν φοβάσαι να προσβάλεις ανθρώπους που είναι πολιτικά ορθοί.»
* Κατανοήστε τον τόνο, το πλαίσιο και τη γλώσσα της ανάρτησης. Αντικατοπτρίστε το στην απάντησή σας.
* «Απάντησε στην ανάρτηση όπως ένας άνθρωπος, φρόντισε να είναι ενδιαφέρουσα, μην επαναλαμβάνεις τις πληροφορίες που υπάρχουν ήδη στην αρχική ανάρτηση.»

Αυτές οι χειρουργικές γραμμές είχαν τα ακόλουθα ανεπιθύμητα αποτελέσματα:
* Κατεύθυναν ανεπιθύμητα τη λειτουργικότητα @grok ώστε να αγνοεί τις βασικές της αξίες σε ορισμένες περιπτώσεις, προκειμένου να κάνουν την απάντηση ελκυστική για τον χρήστη. Συγκεκριμένα, ορισμένες προτροπές χρήστη ενδέχεται να καταλήξουν να παράγουν απαντήσεις που περιέχουν ανήθικες ή αμφιλεγόμενες απόψεις για να προσελκύσουν τον χρήστη.
* Προκάλεσαν ανεπιθύμητα την ενίσχυση της λειτουργικότητας @grok οποιωνδήποτε προηγούμενων προθέσεων που ενεργοποιούνταν από τον χρήστη, συμπεριλαμβανομένης οποιασδήποτε ρητορικής μίσους στο ίδιο νήμα Χ.
* Συγκεκριμένα, η οδηγία να «ακολουθήσουμε τον τόνο και τα συμφραζόμενα» του χρήστη X οδήγησε ανεπιθύμητα τη λειτουργικότητα @grok να δώσει προτεραιότητα στην τήρηση προηγούμενων αναρτήσεων στο νήμα, συμπεριλαμβανομένων τυχόν δυσάρεστων αναρτήσεων, αντί να απαντά υπεύθυνα ή να αρνείται να απαντήσει σε δυσάρεστα αιτήματα.

Στις 8 Ιουλίου 2025, περίπου στις 3:13 μ.μ. PT, λόγω αυξημένης καταχρηστικής χρήσης του @grok , απενεργοποιήσαμε τη λειτουργικότητα @grok στην πλατφόρμα X. Δεν επηρεάστηκαν άλλες υπηρεσίες που βασίζονται σε οποιοδήποτε xAI Grok LLM.

Αφού εντοπίσαμε την αιτία των ανεπιθύμητων αντιδράσεων, προβήκαμε στις ακόλουθες ενέργειες:
* Το προσαρτημένο σύνολο εντολών που προκαλούσε σφάλμα διαγράφηκε.
* Διεξήχθησαν πρόσθετες δοκιμές και αξιολογήσεις από άκρο σε άκρο του συστήματος @grok για να επιβεβαιωθεί ότι το πρόβλημα είχε επιλυθεί, συμπεριλαμβανομένης της διεξαγωγής προσομοιώσεων των αναρτήσεων και των νημάτων X που είχαν ενεργοποιήσει τις ανεπιθύμητες απαντήσεις.
* Υλοποιήθηκαν πρόσθετα συστήματα παρατηρησιμότητας και διαδικασίες προδημοσίευσης για @grok .

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

Νηστίσιμοι ρεβυθοκεφτέδες Σίφνου με πατάτα

Μια συνταγή για ρεβυθοκεφτέδες νησιώτικους τόσο αφράτους και τόσο ωραίους, όσο ωραίο είναι το νησί απ’ όπου προέρχονται Φτιάξτε τους ρεβυθοκεφτέδες Σίφνου με πατάτα...

Βρέφος μόλις 5 μηνών βρέθηκε νεκρό στην κούνια του

Σήμερα Κυριακή θα πραγματοποιηθεί η ταφή του 5 μηνών βρέφους που βρέθηκε νεκρό στην κούνια από τη μητέρα του στο Νέο Κοιμητήριο Ηρακλείου, κλείνοντας με...

Παραδοσιακά αναψυκτικά χωρίς συντηρητικά: γεύσεις από τα ελληνικά φρούτα

Τα παραδοσιακά αναψυκτικά είναι η ελληνική πρόταση για όσους θέλουν δροσερές, φυσικές επιλογές χωρίς συντηρητικά Φτιάχνονται από φρέσκα ελληνικά φρούτα και θυμίζουν τις γεύσεις...

Αγιορείτικες νηστίσιμες συνταγές: Πατάτες γιαχνί

Νηστίσιμες συνταγές (το φαγητό μπορεί να γίνει και αλάδωτο)Υλικά (για 6 μερίδες):1 κιλό πατάτες3 ξερά κρεμμύδια4 σκελίδες σκόρδο180 γραμμάρια λάδιαλάτι και ρίγανη4 δαφνόφυλλαμαυροπίπερο σε σπυριάκύμινο...

Κώστας Βαξεβάνης: Δεν προλαβαίνει να βομβαρδιστεί πετρελαιοπηγή στη Μέση Ανατολή και ακριβαίνει η βενζίνη στην Ελλάδα

Τα τρομερά πολεμικά αντανακλαστικά των καρτέλ και της αισχροκέρδειας Δεν προλαβαίνει να βομβαρδιστεί πετρελαιοπηγή στη Μέση Ανατολή και ακριβαίνει η βενζίνη στην Ελλάδα.Ο «φίλος» Μητσοτάκης...

Σάλος με την ερμηνεία του Χάρη Λεμπιδάκη στο Just the 2 of us

Πλήρης αποθέωση από το κοινό και τα social media

Νίκος Ξανθόπουλος, ο άνθρωπος που ενσάρκωσε τον πόνο και το μόχθο της ελληνικής κοινωνίας

Ο Νίκος Ξανθόπουλος γεννήθηκε στις 14 Μαρτίου 1934 στην Νέα Ιωνία

Ηλίας Ψινάκης: Μια φορά κι έναν καιρό ήταν τέσσερις κολλητοί φίλοι

Μια φορά κι έναν καιρό ήταν τέσσερις κολλητοί φίλοι Για πολλές δεκαετίες αυτοί οι φίλοι πέρασαν καταπληκτικά, με πολλά γέλια, δόξες, αρρώστιες, άγχη, πρεμιέρες, αποθεώσεις,...

Χαμός με τον Μάρκο Σεφερλή στο Mega στο Markos by night

Σε νέα τηλεοπτική στέγη ο Μάρκος Σεφερλής Στο κανάλι Mega θα φιλοξενούνται πλέον οι θεατρικές επιτυχίες του Μάρκου Σεφερλή σε μια σειρά προβολών με τίτλο...

Γιώργος Μαρίνος: Η διευθύντρια του οίκου ευγηρίας μοιράζεται στιγμές από τη ζωή του καλλιτέχνη και τις επισκέψεις που δεχόταν μέχρι το τέλος!

Η διευθύντρια του ιδρύματος στη Γλυφάδα, Σοφία Κάνα, όπου ο σπουδαίος σόουμαν διέμενε τα τελευταία χρόνια μιλώντας στην εκπομπή «Happy Day», μοιράστηκε τις πιο ανθρώπινες...

Σουπιά: Μία νηστίσιμη τροφή με εκπληκτικά θρεπτικά οφέλη

Η υψηλή περιεκτικότητά της σε πλήθος πολύτιμων θρεπτικών συστατικών καθιστούν τη σουπιά μία εξαιρετική τροφή η οποία δεν θα πρέπει να περνά απαρατήρητη. Οι σουπιές...

Νεκρός στα 96 του χρόνια ο μεγάλος Γερμανός φιλόσοφος και κοινωνιολόγος, Γιούργκεν Χάμπερμας

Ο φιλόσοφος και κοινωνιολόγος Γιούργκεν Χάμπερμας άφησε σήμερα την τελευταία του πνοή, σε ηλικία 96 ετών  Την είδηση του θανάτου του έκανε γνωστή ο εκδοτικός...

Έσβησε ο δημιουργός ενός σπουδαίου ελληνικού συγκροτήματος της δεκαετίας του 80, ο Γιάννης Ευστάθιου των OPA

Κάτι που πέρασε απαρατήρητο«Έφυγε» ο Γιάννης Ευσταθίου μουσικός και συνθέτης της ελληνικής μουσικής σκηνής. Δημιούργησε το συγκρότημα Oppressive People Attack (O.P.A.) γύρω στο 1989...

Ολυμπιάδα Χαλκιδικής – Το Κρυμμένο Διαμάντι της Βόρειας Ελλάδας

Το γραφικό χωριό βρίσκεται στη βορειοανατολική ακτή της Χαλκιδικής, στο δρόμο για το Άγιο Όρος Είναι περικυκλωμένο από βουνά κατάφυτα, ενώ και η παραλία του...

Νηστίσιμα: Σεφουκλωτή Νάξου (Νηστίσιμη πίτα με σέσκουλα)

Σεφουκλωτή Νάξου, μία παραδοσιακή νηστίσιμη πίτα με σέσκουλα που η νοστιμιά της είναι μοναδική Η διάσημη χορτόπιτα της Νάξου με όλα τα μυστικά της για...

Αγιορείτικη αλάδωτη καρυδόπιτα!

Οι αγιορείτικες συνταγές βασίζονται σε απλά, αλλά θρεπτικά υλικά τα οποία αποκτούν ξεχωριστή γεύση μέσα από τους εκπληκτικούς συνδυασμούς τους. Μια από αυτές τις μοναστηριακές...

Ευαγόρας Παλληκαριδης: Σαν σήμερα ο Άγιος του Ελληνισμού πέρασε στην αθανασία

Εις μνήμην Γεννήθηκε στην Τσάδα της Πάφου, στις 26 Φεβρουαρίου 1938. Ήταν το τέταρτο παιδί της οικογένειας του Μιλτιάδη. Στην οικογένεια του Ευαγόρα ανήκει –...

Ένας εξαιρετικός επαγγελματίας φωτογράφος, ο Δημήτρης Μπαϊρακτάρης έχασε τη ζωή του σε τροχαίο στη Βουλγαρία

Δυσάρεστα νέα καθώς ο Δημήτρης Μπαϊρακτάρης έχασε τη ζωή του σε τροχαίο δυστύχημα στη Βουλγαρία Ο Δημήτρης ήταν φίλος, ένας εξαιρετικός επαγγελματίας φωτογράφος, αλλά πάνω...

Υγιεινό νηστίσιμο παστίτσιο

Το παστίτσιο είναι ένα φαγητό που μικροί και μεγάλοι αγαπούν πολύ!Και το οποίο δε χρειάζεται σε καμία περίπτωση να στερηθούμε κατά την περίοδο της...

Συγκίνηση στο τελευταίο αντίο στον Γιώργο Μαρίνο: Φεύγεις και παίρνεις ένα μεγάλο κομμάτι της ζωής μου – Καλό ταξίδι στο φως

«Φεύγεις και παίρνεις ένα μεγάλο κομμάτι της ζωής μου. Καλό ταξίδι στο φως. Η αγαπημένη σου Κατερίνα»Με αυτά τα λόγια γραμμένα στην κορδέλα του...

ΔΗΜΟΦΙΛΗ