zebrapps.ai image

‫🤖️ איך לעצור את גניבת הזהות של קלאוד? 🤖️‬

חברים, בואו נדבר על משהו מטריד בעולם ה-AI!
קוראים לי יובל, ואני מכור לחדשות ה-AI. כשאני שומע על פריצות דרך, אני מרגיש כמו ילד בחנות ממתקים. אבל הפעם, גיליתי משהו שממש גרם לי לדאגה.
אז ככה, מסתבר ש-Anthropic, החברה מאחורי קלאוד, גילתה משהו מטריד: שלוש מעבדות AI סיניות, DeepSeek, Moonshot ו-MiniMax, ניהלו מבצע חסר תקדים של "זיקוק המוני" (מה זה, אתם שואלים? תמשיכו לקרוא!) של היכולות של קלאוד! הם יצרו 24 אלף חשבונות פיקטיביים (!!!) וביצעו מעל 16 מיליון אינטראקציות עם קלאוד.
הם לא רק ביקשו הסברים מפורטים על הלוגיקה של קלאוד, אלא גם שאלו שאלות פוליטיות רגישות על מתנגדי משטר סיניים. 🧐 הם בעצם יצרו מאגר מידע עצום לאימון מודלים משלהם, אולי אפילו למטרות צנזורה!
והנה החלק המפחיד באמת: הבטיחות של מודלים כאלה לא נשמרת בתהליך הזיקוק. זה כמו להעתיק ספר ולקוות שכל הדפים יהיו מסודרים כמו במקור. Anthropic טוענים שהמודלים המזוקקים כנראה לא שומרים על אימוני הבטיחות המקוריים. אז בשאלות פשוטות, הכל בסדר. אבל במקרים מורכבים - רפואיים, משפטיים, או כל דבר עדין אחר - המודלים המזויפים האלה פשוט ממשיכים בביטחון, כי הזהירות אבדה בתהליך הזיקוק.
אבל הנה הטוויסט: זה דווקא הופך את שוני התשובות בין מודלים לחשוב יותר! אם שני מודלים, למרות הזיקוק המשותף, נותנים תשובות שונות, לפחות אחד מהם חושב באופן עצמאי. אז אחרי הזיקוק, הסכמה בין מודלים שווה פחות, ושוני שווה יותר! 🤯
מה אתם חושבים על הסיפור הזה? האם זה מדאיג אתכם? ואיך לדעתכם אפשר למנוע מצבים כאלה בעתיד? בואו נדבר על זה!