ChatGPTの新しいモデル”GPT-4o”の可能性がすごいと話題です。公式サイトの動画をコメントつきでご紹介します
GPT-4oの大きなアップデートは下記の点です
下記のデモンストレーションはiphoneなどの端末用に用意されたアプリで実演されています。このアプリも後日リリースされるとのことです。
これらのデモはリアルタイムで撮影されており、驚くべき進化を感じられます。AIが人とともに仕事を行う未来が本当にやってきたと感じられます。
遅延が少なく人との対話のように自然。カメラの動画を読み取って回答したり、AIが驚いたり照れたりという反応を示すように。 またAIが発話中でもユーザーが割り込んで会話ができています。
デモでは男性のファッションについて画像から認識し反応を返している。 帽子をかぶり「どう思う?」と尋ねると笑いながらChatGPTが回答します。
また2つの端末を用意するとAI同士で会話ができる。さらに片方の端末の歌に対して、もう片方のAIも歌を返している。
デモでは三角形の問題について、ユーザーがタブレットに書いた内容を認識して里たるタイムにユーザーをサポートしています。
どこまで認識しているかは不明ですが、 デモ動画では二人の男女の自己紹介によりそれぞれの会話を分けて認識しているように見える。 デモではじゃんけんの進行や審判をAIが努めている。
デモでは歌いながら、様々な音声を再生している。 ハーモニーもできてます。
何が写っている?という質問に対して的確に返答しています。
複数のユーザーを識別し「犬が好きなのは誰?」という質問に答えています。
1台のiphoneで二人の話者の英語、スペイン語の会話を同時通訳しています。カメラ動画は読み込んでいないので、音声だけでそれぞれの話者を識別しているようです。
まず”魔法の(megestic?)芋”というテーマで子守唄を歌わせ、その後ASMRのようなささやき声で歌わせたりといろいろな歌い方ができています。
音声合成の精度がすごい。
名前を呼んで犬に語りかけている。
デモ動画では、ユーザーに景色の説明をしたり、タクシーが来たことを教えてタクシーの乗車を助けている。