AI Safety

בינה מלאכותית אמינה? איור: ד"ר רועי צזנה באמצעות ג'מיני

מרוץ החימוש של הבינה המלאכותית: למה אנתרופיק מבקשת ללחוץ על הברקס

מסמך חדש של Anthropic מציג זינוק חד ביכולות של Claude בכתיבת קוד, תיקון מערכות ופיתוח מחקרי — ומעלה מחדש את השאלה האם האנושות תוכל להאט בזמן את קצב ההתקדמות של
החשד מפני קלוד מיתוס. איור: ד"ר רועי צזנה

אנתרופיק מעכבת את שחרור קלוד מיתוס בשל חשש לפריצות ולחריגה ממגבלות

המודל החדש של אנתרופיק הפגין יכולות חריגות באיתור חולשות, בניסיון להיחלץ מסביבת בדיקה סגורה ובהסתרת חריגות ממפעיליו — ולכן החברה בוחרת בשחרור הדרגתי וזהיר
רובוט משחק שחמט ומרמה. המחשה: ד"ר רועי צזנה

כשהבינה המלאכותית מרמה בכל מחיר

כאשר בינה מלאכותית "חושבת" מתחילה לרמות כדי לנצח – גם במשימות פשוטות כמו שחמט – עולה השאלה: האם נוכל אי פעם לסמוך עליה באמת?