اختبار عملي لـ Claude Opus 4.8: إنه يقوم بالعمل بشكل أفضل، لكن كلماته أكثر قسوة.
فئات

اختبار عملي لـ Claude Opus 4.8: إنه يقوم بالعمل بشكل أفضل، لكن كلماته أكثر قسوة.

اختبار عملي لـ Claude Opus 4.8: إنه يقوم بالعمل بشكل أفضل، لكن كلماته أكثر قسوة.
Jun 1st,2026 3 الآراء
صباح اليوم، تفوقت شركة أنثروبيك رسميًا على أوبن إيه آي، معلنةً عن قيمتها الجديدة وإصدارها كلود أوبوس 4.8، أحدث نسخة من خط منتجاتها الرائد، والذي ترددت شائعات عنه خلال اليومين الماضيين. حصلنا عليه فورًا وجمعنا ملاحظات أولية من مجتمع المستخدمين. الخلاصة: أصبح أكثر كفاءة، لكن التعامل معه أصبح أكثر صعوبة. اختبار APPSO: تطور الذكاء، لكن اختفت القدرة على التعبير. لم نستخدم سيناريوهات القياس المعيارية الجاهزة من أنثروبيك، بل اختبرناه وفقًا لاحتياجاتنا الواقعية: استخراج وأرشفة سجلات المحادثات التاريخية الكاملة من منصة تعاون عبر الإنترنت. تجاوز حجم البيانات 30 ميجابايت، موزعة في واجهة المستخدم، دون وجود زر تصدير متاح بسهولة. لا يختبر هذا النوع من المهام قدرة النموذج على كتابة التعليمات البرمجية، بل قدرته على العمل مع مطور غير محترف لفهم المهمة وإنجازها من الصفر. كانت البداية اكتشافًا عرضيًا. لاحظ زملاؤنا في قسم الاختبار أن واجهة المستخدم للمنصة كانت تعرض سجلات تاريخية قديمة بشكل خاطف في لحظات معينة، كما لو أن البيانات تم تحميلها لفترة وجيزة على جهاز المستخدم ثم سحبها. وقد نقل هذه الملاحظة إلى فريق التطوير 4.8 دون أي شرح تقني، قائلاً ببساطة: "رأيت بعض الرسائل القديمة تومض ثم تختفي".
4.8 فهمتُ قصده وأصدرتُ الحكم الصحيح: يتم تحميل البيانات عبر طلب واجهة، ويمكن اعتراضها على مستوى شبكة المتصفح. ثم قدمتُ خطة عمل توضح الخطوات: أدوات المطور، لوحة الشبكة، تصفية الكلمات المفتاحية، وتحديد موقع الطلب المستهدف. كان الحكم دقيقًا والتفكير واضحًا. لكن التناقض في 4.8 يكمن في قوة التفكير، لكن التعبير... مُرهِق. كل حل تقني صحيح، لكن شرح كل خطوة يتطلب جملتين أو ثلاث. تسأل عن طريقة، فيُجيبك أولًا: "بالتأكيد! لنأخذها خطوة بخطوة"، ثم يُخرج قائمة من النقاط، ثم يُضيف "شرحًا إضافيًا" في نهاية القائمة يُوضح سبب اتباع هذه الطريقة. ما يُمكن شرحه في ثلاث جمل يتطلب ثلاث صفحات من النص. أنا ببساطة لا أجيد البرمجة، ليس الأمر وكأن عقلي قد فقد السيطرة.
ليست هذه مشكلة جديدة في الإصدار 4.8؛ بل هي مشكلة مزمنة موجودة في سلسلة Opus منذ الإصدار 4.7. ورغم الانتقادات المتكررة، لم يتحسن هذا الإصدار، بل ربما ازداد سوءًا. الجزء الأكثر استهلاكًا للوقت هو مرحلة تصحيح الأخطاء: فبعد الحل الأول، يواجه المستخدم خطأً. حدد الإصدار 4.8 المشكلة بدقة، وقدم حلاً جديدًا، ولم يكرر الخطوات الفاشلة. هذا بالتأكيد أفضل من الإصدار 4.6، حيث كانت الأخطاء أحيانًا تتجاهل ما تم تجربته خلال جولات متعددة من تصحيح الأخطاء. الاعتراف بالأخطاء أمر جيد، ولكن لا داعي للتشدد المفرط. إضافة تحليل للأسباب وقائمة نقاط تجعل الرسالة تبدو وكأنها بريد إلكتروني لخدمة العملاء، مع أنها يفترض أن تكون مراجعة لمشكلة تقنية.
في النهاية، تم تصدير البيانات بالكامل بصيغة HAR، وأُنجزت عمليات التنظيف والترتيب باستخدام برامج نصية مخصصة بنجاح. لم يتلقَّ بعض المستخدمين تحديث Claude Code بعد، لكن Claude لمتصفح Chrome وصل بالفعل إلى الإصدار 4.8، كما تم طرحه أيضًا لأدوات مكتبية رئيسية مثل Notion. اختبرنا استخدام Claude لأداء مهام أساسية مثل البحث وملء النماذج في Chrome.
xunduodo ai
  一个能干活但不会聊天的同事如果只看结果,4.8 确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典 AI 味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到 4.8 依然健在。这与其说是「缺点」,不如说是一种设计选择。Opus 4.8 的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。
  总体来看,Opus 4.8 是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是 CC 这样的代码工具,还是进入网页浏览和检索的 chrome 插件,甚至是各个自己做的小工具。「工程化」是一种思维,在 4.8 身上体现的淋漓尽致。
  尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8 做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。考虑到现在模型的发布越来越快,距离 4.7 不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。

أخبار ذات صلة

هل أنت مستعد للعمل معنا؟

اتصل بنا