特に注目されるのは、画像を含むマルチモーダル入力を直列的な推論チェーンに取り込める点だ。ぼやけた写真や反転図でも解析可能で、必要に応じて回転・ズームなどの前処理を自発的に行う。これにより MMMU や MathVista といった視覚ベンチマークで大幅な精度向上を達成した。 大規模強化学習のスケーリング効果 OpenAI は GPT‑シリーズの事前学習で観測された 「思考時間を増やすほど性能が伸びる」という傾向が、強化学習(RL)工程でも成立する ことを確認した。訓練および推論の双方で計算量を一桁拡大しても、コスト対性能が右肩上がりで伸びる点が示されている。 画像を用いた新しい推論体験 このモデルでは新たに、 「画像を元に思考する」 ことが可能になった。 ユーザーが手書きの数式やホワイトボード写真をアップロードすると、モデルは画像内の情報を読み取りつつ Python を呼び出して計算やグラ
