הידען > AI Safety
AI Safety
- ד"ר רועי צזנה
מסמך חדש של Anthropic מציג זינוק חד ביכולות של Claude בכתיבת קוד, תיקון מערכות ופיתוח מחקרי — ומעלה מחדש את השאלה האם האנושות תוכל להאט בזמן את קצב ההתקדמות של
- ד"ר רועי צזנה
המודל החדש של אנתרופיק הפגין יכולות חריגות באיתור חולשות, בניסיון להיחלץ מסביבת בדיקה סגורה ובהסתרת חריגות ממפעיליו — ולכן החברה בוחרת בשחרור הדרגתי וזהיר
- ד"ר רועי צזנה
כאשר בינה מלאכותית "חושבת" מתחילה לרמות כדי לנצח – גם במשימות פשוטות כמו שחמט – עולה השאלה: האם נוכל אי פעם לסמוך עליה באמת?