GPT-5.4 שוחרר: OpenAI משיקה מודל שיכול לעבוד לבד על המחשב

# GPT-5.4 שוחרר: OpenAI משיקה מודל שיכול לעבוד לבד על המחשב GPT-5.4 יצא לאוויר הלילה (5 במרץ 2026). לא מדובר בשדרוג קטן. OpenAI שחררה מודל שיכול לפתוח תוכנות, לגלוש בדפדפן, ללחוץ על כפתורים ולכתוב קוד שעובד בפועל, בלי שאדם יגע במקלדת. הנה מה שאנחנו יודעים ומה זה אומר בפרקטיקה. ## שליטה מלאה במחשב: מה זה בעצם אומר הגדול ביותר בגרסה הזו הוא Native Computer Use. GPT-5.4 יכול לשלוט על מחשב כמו שאדם עושה: הוא רואה את המסך, מחליט לאן ללחוץ, מזיז את העכבר, ממלא טפסים, מנווט בין חלונות, פותח תוכנות ומסגר אותן. זה לא API שמחובר לשירות חיצוני. זה המודל עצמו שמבצע פעולות על ממשק משתמש רגיל. הבנצ'מרק הרלוונטי הוא OSWorld, שמודד כמה טוב מודל AI מצליח לבצע משימות על מחשב אמיתי. הבחינות כוללות פתיחת קבצים, חיפוש מידע בדפדפן, שימוש בתוכנות office, ניווט בממשקים מורכבים. GPT-5.4 קיבל 75%. זה הציון הגבוה ביותר שנמדד עד כה עבור כל מודל. GPT-4 הגיע לכ-20% על אותו בנצ'מרק. Claude 3.7 Sonnet, המודל הנוכחי של Anthropic שנחשב לחזק בתחום Computer Use, נמצא מתחת ל-60%. ההפרש בין 60% ל-75% נשמע קטן, אבל בעולם של אוטומציה, הוא משמעותי. ב-60%, המודל טועה ב-4 מתוך 10 משימות. ב-75%, הוא טועה ב-2.5 בלבד. זה ההבדל בין סוכן שצריך פיקוח צמוד לסוכן שאפשר לתת לו להריץ תהליך ולבדוק בסוף. **מה זה אומר לעסק ישראלי?** עד עכשיו, אוטומציה של תהליכים עסקיים דרשה API, webhooks, ותשתית פיתוח. עם Computer Use ברמה הזו, אפשר בפרינציפ לתת למודל גישה לממשק ולבקש ממנו לבצע משימה, בלי לפתח אינטגרציה מיוחדת. ניהול הזמנות ב-ERP שלא תומך ב-API? מילוי טפסים ממשלתיים? ניהול תיבת מייל בממשק שלא ניתן לחבר אחרת? עדכון מחירים במערכת ישנה? כל אלה הופכים לאפשריים. כמובן, הסוכן עדיין צריך הגדרה מסודרת, פיקוח על תוצאות, ותהליך עבודה ברור. אבל החסם הטכני ירד משמעותית ביחס למה שהיה נדרש לפני שנה. ## חשיבה ניתנת לעצירה: פעם ראשונה בכלל מודלי reasoning (חשיבה) כמו o1, o3, R1 של DeepSeek וגרסאות Claude Thinking, עובדים לפי תבנית אחת: המודל מתחיל לחשוב, ממשיך עד הסוף, ואחר כך נותן תשובה. אין אפשרות להפריע לו באמצע, לשנות את הכיוון, או לאמר לו "אתה הולך בכיוון לא נכון, תתחיל מחדש עם ההנחה הזו". GPT-5.4 שינה את זה. OpenAI הוסיפה מנגנון שמאפשר לעצור את תהליך החשיבה, לשנות הנחיה, ולהמשיך. זה נשמע כמו עניין טכני קטן, אבל בפרקטיקה זה שינוי מהותי. דמיינו סוכן AI שמנתח הצעת עסקה מורכבת. הוא כבר 3 דקות בתוך תהליך החשיבה, עובר על כל הסעיפים, ואתם מבינים שהוא מנתח בהנחה שגויה לגבי תנאי התשלום. עכשיו אפשר לעצור, לתקן את ההנחה, ולהמשיך מאיפה שעצר. לפני GPT-5.4, הייתם צריכים להמתין שיסיים, לראות שהתשובה שגויה, ולהתחיל מחדש. ביצועים בשטח: עבור משימות שאורכות הרבה שלבים חשיבתיים, זה מאפשר תיקון בדרך ולא רק בסוף. עבור סוכנים אוטונומיים שמבצעים תהליכים ארוכים, האפשרות הזו חוסכת זמן חישוב וכסף. ## קוד שעובד: SWE-Bench Pro ב-57.7% SWE-Bench הוא בנצ'מרק שבו המודל מקבל issue אמיתי מ-GitHub, באג, בקשת פיצ'ר, שגיאה בקוד, ואמור לכתוב patch שפותר אותו באופן שעובר tests אוטומטיים. SWE-Bench Pro הוא גרסה קשה יותר עם בעיות מורכבות שדרשו פתרון אנושי מנוסה. GPT-5.4 קיבל 57.7% על SWE-Bench Pro. זה שיא חדש. לשם השוואה, GPT-4 הגיע לכ-12-15% בגרסאות המוקדמות. Claude 3.7 Sonnet של Anthropic מתפרסם ב-45-50% באזור. GPT-5 ב-49%. העלייה מ-49% ל-57.7% בין GPT-5 ל-GPT-5.4 היא עלייה של 8 נקודות. זה לא שינוי בשפת התכנות, זה שיפור ביכולת לזהות מה הבעיה האמיתית, לתכנן פתרון שמתחשב במבנה הקוד הקיים, ולכתוב קוד שלא רק נראה נכון אלא גם עובר בדיקות. למפתחים ולעסקים שמשתמשים ב-AI לפיתוח, עבודה עם סוכן שמגיע ל-57.7% על SWE-Bench Pro פירושה שניתן לתת לו bugs ופיצ'רים קטנים ולצפות שרוב הזמן הוא יפתור אותם ללא התערבות. ## כלים ו-APIs: 54.6% Toolathon, 10 נקודות מעל Anthropic Toolathon הוא בנצ'מרק שמודד כמה טוב מודל מסתדר עם כלים ו-APIs: מתי להפעיל איזה כלי, איך לפרש תשובות שחוזרות, איך לשלב כמה כלים יחד לתהליך אחד, ואיך להתמודד עם שגיאות בדרך. GPT-5.4 קיבל 54.6%. המודלים של Anthropic נמצאים על 44% בערך. זה פער של 10 נקודות, שמשמעותי בתחום הזה. כשסוכן AI צריך לנהל אינטגרציות מורכבות, להחליט אוטומטית מתי לשלוח אימייל ומתי לחפש מידע ומתי לעדכן CRM ומתי לשלוח התראה בטלגרם, הביצועים על Toolathon הופכים לנתון פרקטי. מודל שמקבל 54.6% ישלב כלים בצורה נכונה יותר, יתמודד עם שגיאות API טוב יותר, ויזקק לפחות הנחיות מפורשות. ## מתמטיקה: מ-2% ל-50% על FrontierMath FrontierMath הוא בנצ'מרק שנוצר על ידי קבוצה של מתמטיקאים ממוסדות אקדמיים, עם שאלות שרוב הדוקטורנטים למתמטיקה לא יודעים לענות עליהן. זה לא אריתמטיקה בסיסית. זה תורת מספרים, גיאומטריה אלגברית, ניתוח מתמטי ברמה מחקרית. GPT-4 קיבל שם 2%. GPT-5 הגיע ל-25-30%. GPT-5.4 עומד על 50%. הקפיצה מ-2% ל-50% בשנתיים וחצי היא עצומה. אבל המספר הזה חשוב גם מסיבה שאינה קשורה ישירות למתמטיקה: בנצ'מרקים כמו FrontierMath מודדים יכולת חשיבה לוגית ארוכה עם הרבה שלבים, כשכל שלב צריך להיות נכון כדי שהתשובה הסופית תהיה נכונה. זה מה שנדרש גם בניתוח חוזים מורכבים, אסטרטגיה עסקית, ותכנון פרויקטים ארוכי טווח. ## מה השתנה ביחס ל-GPT-4o ו-GPT-5 GPT-4o יצא ב-2024 כמודל multimodal מהיר שמטפל בטקסט, תמונות וקול. הוא היה פרקטי וזול, אבל לא חזק במיוחד בחשיבה מורכבת או בשליטה על מחשבים. GPT-5 שוחרר מוקדם ב-2025 עם שיפורים ב-reasoning ויכולות כלליות. הוא הביא עלייה משמעותית בביצועים, אבל לא הציג Computer Use ברמה שנראה כעת. GPT-5.4 מוסיף שלושה דברים שלא היו בגרסאות הקודמות ברמה הנוכחית: Computer Use ב-75% OSWorld, חשיבה ניתנת לעצירה, ושיפור משמעותי בשימוש בכלים. השילוב של שלושת אלה הוא מה שמאפשר סוכנים שעובדים לבד לאורך זמן, על תהליכים ארוכים, עם פחות צורך בפיקוח אנושי. ## מה זה אומר לעסקים בישראל עכשיו השוק הישראלי השתמש ב-AI עד עכשיו בעיקר ברמה של ChatGPT כלי: כתיבת תוכן, ניסוח מיילים, תמיכה בשירות לקוחות. זה שימושי, אבל זו לא אוטומציה של תהליכים עסקיים. עם GPT-5.4, השאלה שכל עסק צריך לשאול היא: אילו תהליכים חוזרים על עצמם בעסק שלנו כל יום, שמישהו יושב מול מסך ולוחץ על כפתורים? כל תהליך כזה הוא מועמד לאוטומציה עם Computer Use. **חשבונאות וכספים:** הזנת חשבוניות למערכת, בדיקת חיובים מול בנק, ייצוא דוחות. מערכות ישנות כמו Priority, Hashavshevet ו-חשבשבת אין להן API מסודר. Computer Use מאפשר לעבוד ישירות עם הממשק בלי לפתח אינטגרציה. **שירות לקוחות:** מענה לפניות נכנסות, חיפוש מידע ברשומות, עדכון CRM. בעלי עסקים שנשענים על WhatsApp Business ולא על מערכות API יכולים לחבר סוכן שמטפל בפניות גם כשהם לא זמינים. **מכירות ולידים:** בדיקת לידים חדשים, חיפוש מידע על לקוח פוטנציאלי, שליחת הצעת מחיר ראשונית. תהליכים שלוקחים 20 דקות לנציג מכירות יכולים לרוץ תוך דקות. **ניהול תוכן:** פרסום בפלטפורמות שאין להן API, עדכון מחירים בחנות מקוונת, עדכון מלאי. **אדמיניסטרציה:** מילוי טפסים ממשלתיים, הגשת דוחות, ניהול לוחות זמנים. הנקודה היא לא שהסוכן עושה הכל לבד מחר בבוקר בלי שום הגדרה. הנקודה היא שהחסם הטכני לאוטומציה של תהליכים ספציפיים ירד משמעותית. מה שלפני שנה דרש מספר חודשי פיתוח ואינטגרציה, יכול היום לדרוש שבועות של הגדרה וכיוון. ## ההשוואה לתחרות: OpenAI לעומת Anthropic ו-Google לא ניתן לדון ב-GPT-5.4 מבלי להסתכל על הקונטקסט התחרותי. Anthropic שחררה את Claude 3.7 Sonnet בינואר 2026 עם חידושים ב-Extended Thinking. Google שחררה Gemini 2.0 Ultra עם יכולות multimodal חזקות. OpenAI שחררה GPT-5.4 כעת. בבנצ'מרקים הקיימים, GPT-5.4 מוביל על OSWorld ועל Toolathon. Claude מוביל על חלק מהמדדים של כתיבה ועבודה ממושכת עם הנחיות מורכבות. Gemini חזק בעבודה עם תמונות וקבצים. אין מודל אחד שמוביל בכל תחום. מה שכן קרה הוא שהפער בין המודלים הטובים ביותר למודלים הממוצעים הלך וגדל. GPT-5.4, Claude 3.7 ו-Gemini 2.0 הם ליגה אחרת ביחס לכל מה שהיה לפני שנה וחצי. עבור עסקים, המשמעות היא שהבחירה בין מודלים צריכה להיות מבוססת על המשימה הספציפית. Computer Use ב-GPT-5.4 חזק יותר. כתיבת תוכן ועבודה עם הוראות מורכבות עשויה להיות טובה יותר ב-Claude. עבודה עם דפים ומסמכים עשויה להיות מוצלחת יותר ב-Gemini. ## גישה ותמחור OpenAI הודיעה ש-GPT-5.4 יהיה זמין דרך ChatGPT Plus ו-Team החל מהיום, ודרך API לפיתוחים. תמחור ה-API טרם פורסם במלואו, אבל הצפי הוא שיהיה יקר יותר מ-GPT-4o ובאזור של o3. Computer Use דורש הפעלה מכוונת. זה לא פיצ'ר שנדלק אוטומטית בכל שיחה. עסקים שרוצים להשתמש בו יצטרכו להגדיר את הסביבה המוגנת שבה הסוכן פועל, לבדוק את תהליכי העבודה, ולוודא שיש מנגנוני פיקוח על הפעולות שהסוכן מבצע. זה לא פשוט, אבל זה כבר אפשרי ברמה מסחרית לעסקים שמוכנים לעשות את ההגדרה. ## למה כדאי לעקוב אחרי ההתפתחות הזו OpenAI שחררה GPT-5.4 בסוף פברואר, שלושה חודשים אחרי GPT-5. הקצב הזה, שחרור גרסה משודרגת כל כמה חודשים, מראה שהתחרות בין החברות מואצת. Anthropic שחררה Claude 3.7 בינואר, Google ממשיכה לעדכן את Gemini, DeepSeek ממשיכה לשחרר גרסאות חדשות. לעסקים זה אומר שהחלטות על כלי AI שמקבלים היום צריכות להיות גמישות. כלי שנראה הכי טוב היום עשוי להיות מוחלף בגרסה חדשה בעוד שלושה חודשים. ## איפה AI Buddy נכנס לתמונה אנחנו ב-AI BUDDY עוקבים מקרוב אחרי כל שחרור מודל, לא כי זה מעניין, אלא כי זה משפיע ישירות על הסוכנים שאנחנו בונים ומפעילים עבור עסקים ישראלים. GPT-5.4 הוא שדרוג שנכנס לשיקולים בבחירת מודל, במיוחד עבור סוכנים שעובדים עם ממשקים ותהליכים מורכבים. [ClawBud](https://clawbud.ai), הפלטפורמה שלנו לסוכני AI אוטונומיים, תומכת בבחירת מודל חופשית. לקוחות שרוצים לנצל את יכולות GPT-5.4 יכולים להביא מפתח API משלהם (BYOK) ולהשתמש בו בתוך הסוכן שלהם, עם כל האינטגרציות שכבר קיימות: Gmail, Google Calendar, Telegram, ועוד. אם אתם עסק שרוצה להתחיל לבדוק מה סוכן AI יכול לעשות עבורכם, כולל Computer Use על תהליכים ספציפיים בעסק שלכם, אנחנו ב-[AI BUDDY](https://aibuddy.co.il) יכולים לעזור. צרו קשר ונבדוק ביחד אילו תהליכים הכי הגיוני להתחיל איתם. --- *AI BUDDY בונה סוכני AI אוטונומיים לעסקים ישראלים. [aibuddy.co.il](https://aibuddy.co.il) | [clawbud.ai](https://clawbud.ai)*