הידען > AI Safety
AI Safety
- ד"ר רועי צזנה
המודל החדש של אנתרופיק הפגין יכולות חריגות באיתור חולשות, בניסיון להיחלץ מסביבת בדיקה סגורה ובהסתרת חריגות ממפעיליו — ולכן החברה בוחרת בשחרור הדרגתי וזהיר
- ד"ר רועי צזנה
כאשר בינה מלאכותית "חושבת" מתחילה לרמות כדי לנצח – גם במשימות פשוטות כמו שחמט – עולה השאלה: האם נוכל אי פעם לסמוך עליה באמת?