Anthropic / Claude Fable 5 性能検証
Claude Fable 5、提供再開後の性能は?
米2社で評価分かれる、安全機能強化の影響か
7月1日に提供を再開したAnthropicのClaude Fable 5。提供停止前後で性能に変化はあるのか。米AI企業2社が調査結果を報告し、評価が分かれる結果となっている。
BridgeMind AI:スコア低下を指摘
米BridgeMind AIは「Fable 5が弱体化して戻ってきた」と投稿。同社のベンチマーク「BridgeBench」ではデバッグ86.2→25.9、リファクタリング73.6→38.4、ハルシネーション対策75.9→61.7と低下。安全機能(分類器)強化の影響と分析する。
Arena.ai:性能はほぼ変わらず
Arena.aiは数千件のユーザー評価を集計した結果、テキストや画像処理でスコアを維持していると報告。ただし暫定値であり、より詳細な分析結果を公開予定。
評価が分かれる理由
両者の違いは測定方法に起因する。BridgeBenchはコーディング特化で安全機能の影響を強く受け、Arenaはユーザーの総合評価で日常的使用感に近い。Anthropicは脆弱性対応で分類器をアップデートし、無害なリクエストの誤検出が増加したことがコーディングタスクのスコアに影響した可能性がある。
本記事はITmedia NEWS(2026年7月3日付)をもとにGPTガイドが編集・要約したものです。