2025年3月20日、OpenAIから音声エージェントの可能性を一気に広げる最新のAudio APIが公開されました。特に注目したいのは、今回発表されたテキスト読み上げ(Text-to-Speech, TTS)モデルの『GPT-4o-mini-tts』です。 このモデルの最大の特徴は、これまでのTTSモデルとは違い、単に「何を話すか」だけでなく、「どのように話すか」を具体的に指示できるようになったことです。たとえば、「明るく元気なラジオDJのように話して」「カスタマーサービス担当者風でお願い」など、話し方のスタイルや感情まで自在にカスタマイズすることが可能になっています。 これにより、音声エージェントはこれまで以上に人間らしく、自然なコミュニケーションが可能になります。 現時点では、このモデルは英語に最適化されていますが、日本語でも十分に自然で品質の高い音声を生成できるため、日本国内の開発
