GPT-5.5 が Notion に登場 : hkob の雑記録 (473)

はじめに

hkob の雑記録の第473回目(連続46日目)は、Notion で GPT-5.5 が利用できるようになった件を解説します。

NotionHQ からのポスト

GPT-5.5 が今、Notion に登場 🫡

GPT-5.5 が Notion でリリースされました。OpenAI が GPT-5.5 をリリースしたのが、4/24 でした。日本時間の4/25 ですので、すぐに Notion でも利用できるようになったことになります。最近は、リリースされたらすぐに利用できるようになりましたね。

Update on April 24, 2026: GPT‑5.5 and GPT‑5.5 Pro are now available in the API. The system card has also been updated to describe the additional safeguards that apply.

eli(as) さんのポスト

私たちは、Notion で新しいモデルをどのように評価しているかについて、よく質問を受けています。なぜなら、私たちは最先端の研究室モデルと主要なオープンソースモデルを、汎用知識作業のために展開している数少ないアプリの一つだからです。

モデルを評価した後、モデルプロバイダーと共有する内容については、以下をお読みください。

添付されている図はこのようになっています。

AI model の比較

この図から読み取れることを示してもらいました。

添付の図の表は、各LLMモデルの「成績(av score)」と「コスト/実行特性(ツール呼び出し回数・エラー・トークン・時間)」の比較です。読み取れることは以下です。

1) 精度(av score %)

  • 最高: GPT 5.5(62.9%)と Opus 4.7(62.4%)がほぼ同率トップ
  • 次点: Opus 4.6(48.3%)
  • 低め: Sonnet 4.6(35.3%)、GPT 5.2(38.5%)

2) ツール呼び出しとエラー(安定性)

  • エラー最少: Opus 4.7(6)
  • 高スコア帯での安定: GPT 5.5(12 errors / 18 calls)も比較的良い
  • 不安定: GPT 5.2(54 errors)が突出して多い(呼び出し24に対してエラー54)

※「total tool errors」が「av tool calls」より多いので、1回の呼び出しで複数エラーが起きる/リトライ等を含む定義の可能性が高いです。

3) トークン効率(1回あたりの重さ)

(av tokens)

  • 軽い: GPT 5.4(3317)、GPT 5.2(6323)、GPT 5.5(5823)
  • 重い: Kimi k2.6(13,265)、Opus 4.6(10,869)、Opus 4.7(10,481)

4) 速度

(av time / total time)

  • 最速級: GPT 5.2・5.4(av 6.6s、total 約73s)
  • 高スコアで現実的な速さ: GPT 5.5(av 14.9s、total 164s)
  • 遅め: Opus 4.6/4.7(total 約267–273s)、Kimi k2.6(265.7s)

5) まとめ(表からの結論)

  • 総合的に強い(精度×安定×速度のバランス): GPT 5.5(高スコア・エラー少なめ・トークン軽め・時間も中程度)
  • 精度と安定は最高だが重い/遅い: Opus 4.7(エラー最少だがトークン/時間が大きい)
  • スピード重視なら: GPT 5.4(ただしスコアは中位)

必要なら、「目的が(1)高精度 (2)低コスト (3)低失敗率 (4)高速のどれか」で、どのモデルが最適かをこの表だけでランキング化します。

このポストには返信がありました。

多くの人気ベンチマークは、コーディング以外の実際の業務でこれらのモデルがどのように機能するかをテストするには不十分であるため、私たちは独自の内部評価を開発しました。

これらの評価がどのように行われ、何を対象としているかについては近日中に詳しく共有しますが、GPT 5.5のリリースに伴い、こちらが私たちのレポートからのいくつかの見出しです。

添付されていた画像はこちらです。

Notion のレポート

この画像についても解説してもらいました。

この「レポートの見出し(highlights)」画像が語っていることは、要約すると 「GPT-5.5はNotionの“実務エージェント”用途で、品質・コスト(トークン)・待ち時間(レイテンシ)・曖昧指示への対応力が大きく伸びた」 です。箇条書きの各段は、だいたい次を言っています。

1) GPT-5.5 vs 競合(Opus 4.7)

  • 素点(raw score)はOpus 4.7に僅差で勝つ(=タスク達成/品質の主指標で最上位級)。
  • さらに重要として、トークン使用量とレイテンシで圧勝

    具体的に「トークン半分」「速度が約1/3速い(third faster)」と主張。

  • これにより、いわゆる事務作業・定型業務(clerical needs)を“同じ成功率で、より速く安く”回せるという絵を描いている。

  • ただし括弧書きで「GPTは優秀な実行者(do-er)だが、最高のライターではない」という含みも残している

    → 文章表現の美しさ/文体はClaude系(Opus/Sonnet)に軍配、というニュアンス。

2) GPTシリーズ内での位置づけ

  • GPT-5.5は“これまでで最高スコアのGPTモデル”
  • GPT-5.4を 19.1% 上回る と言っている

    → 単なる微改善ではなく、世代更新としての跳ね方を強調。

3) ツール呼び出し(Tool calls)=エージェント運用の現実

  • GPT世代が進むにつれ tool error は着実に改善しているが、まだClaude水準には届いていない

    → ツール連携の堅牢性は依然Claude優位、という評価。

  • それでも tool batching(ツールのまとめ打ち/段取り良い実行)は相変わらず強い

    → 「新規性はないが強みは維持」と釘を刺している。

4) “新しい知能レベル”=人間の曖昧さの扱いが改善

  • これまでGPTが苦手だった

    • implicit asks(言外の依頼)
    • vague language(曖昧な言い回し)
    • toneのニュアンス

    みたいな「人間のコミュニケーションの微妙さ」に対して 大幅改善した、という主張。

  • その結果として

    • 質問の意図を以前より正しく解釈できる
    • 最初に広く考えて「より良い着地点」を取りに行く(従来は最短で“分かりやすい選択肢”に突っ込みがちだった)
    • Notion的に“機能する”成果物(動的DB、チャート、AI数式など)を作りやすくなり、コピペ作業から脱却できる

    といった「実務での使い勝手」方向の改善点を列挙している。

5) 具体例:重複チケットの統合(under-described inputs)

  • 例として「チケットDBを見て重複をマージして」と言っても、重複は文字列一致しない(人によって書き方が違う)
  • それを“同じバグ/同じ目的”として認識して統合するのは難しいが、GPT-5.5が初めて達成した、としている

    → ここがこの画像の核心で、単に回答が賢いだけでなく、曖昧で不完全な業務データから“実務的な同一性”を見抜く能力が上がった、と言いたい。


つまり、このレポート(の見出し)は「スコアが上がりました」よりも、Notion上でツールを叩きながら仕事を完了する“実務エージェント”として、GPT-5.5が初めて(または久々に)大きく前進した、というストーリーになっています。

おわりに

やはり GPT-5.5 はかなり強力なようです。色々と試してみようと思います。

https://hkob.notion.site/hkob-16dd8e4e98ab807cbe3cf3cc94cdfe0f?pvs=4