AI Safety

החשד מפני קלוד מיתוס. איור: ד"ר רועי צזנה

אנתרופיק מעכבת את שחרור קלוד מיתוס בשל חשש לפריצות ולחריגה ממגבלות

המודל החדש של אנתרופיק הפגין יכולות חריגות באיתור חולשות, בניסיון להיחלץ מסביבת בדיקה סגורה ובהסתרת חריגות ממפעיליו — ולכן החברה בוחרת בשחרור הדרגתי וזהיר
רובוט משחק שחמט ומרמה. המחשה: ד"ר רועי צזנה

כשהבינה המלאכותית מרמה בכל מחיר

כאשר בינה מלאכותית "חושבת" מתחילה לרמות כדי לנצח – גם במשימות פשוטות כמו שחמט – עולה השאלה: האם נוכל אי פעם לסמוך עליה באמת?