神奈川県川崎市のホームページ制作・WEBマーケティング会社
  • 044-811-0333(平日:10:00〜17:00)

5月15日発表のGPT-4oの要点まとめ

5月15日発表のGPT-4oの要点まとめ

ChatGPTの新しいモデル”GPT-4o”の可能性がすごいと話題です。公式サイトの動画をコメントつきでご紹介します

GPT-4oの大きなアップデートは下記の点です

  • モデル一つでマルチモーダルを実現。テキストだけでなく、音声、動画、画像を一度に処理できます。
  • モデルのレスポンスが早くなり、音声での会話が人との会話のように自然に返答が変えるようになりました。
  • GPT-4 に比べてお値段が半分に

下記のデモンストレーションはiphoneなどの端末用に用意されたアプリで実演されています。このアプリも後日リリースされるとのことです。

これらのデモはリアルタイムで撮影されており、驚くべき進化を感じられます。AIが人とともに仕事を行う未来が本当にやってきたと感じられます。

音声会話での反応が人の反応にとても近くなった

遅延が少なく人との対話のように自然。カメラの動画を読み取って回答したり、AIが驚いたり照れたりという反応を示すように。 またAIが発話中でもユーザーが割り込んで会話ができています。

音声で会話しながらビデオでの映像を認識して反応するようになった

デモでは男性のファッションについて画像から認識し反応を返している。 帽子をかぶり「どう思う?」と尋ねると笑いながらChatGPTが回答します。

2台のChatGPTで対話ができる。歌うことができる

また2つの端末を用意するとAI同士で会話ができる。さらに片方の端末の歌に対して、もう片方のAIも歌を返している。

アプリの画面をリアルタイムで認識しながら数学を教えている

デモでは三角形の問題について、ユーザーがタブレットに書いた内容を認識して里たるタイムにユーザーをサポートしています。

複数のユーザーを同時に認識している

どこまで認識しているかは不明ですが、 デモ動画では二人の男女の自己紹介によりそれぞれの会話を分けて認識しているように見える。 デモではじゃんけんの進行や審判をAIが努めている。

音声の高さや速度を音声の命令で指示できる

デモでは歌いながら、様々な音声を再生している。 ハーモニーもできてます。

動画を共有しながらカメラで表示している物体を認識して反応している

何が写っている?という質問に対して的確に返答しています。

オンラインビデオ会議の会話を認識して誰がなんと言ったかを識別している

 複数のユーザーを識別し「犬が好きなのは誰?」という質問に答えています。

リアルタイム翻訳機能

1台のiphoneで二人の話者の英語、スペイン語の会話を同時通訳しています。カメラ動画は読み込んでいないので、音声だけでそれぞれの話者を識別しているようです。

子守唄をいろいろな声色で歌わせる

まず”魔法の(megestic?)芋”というテーマで子守唄を歌わせ、その後ASMRのようなささやき声で歌わせたりといろいろな歌い方ができています。

カウントを喋らせて、早くカウントさせたり遅くカウントさせたり、コントロールしている

音声合成の精度がすごい。

愛犬をカメラで認識したら、その名前を訪ねている

名前を呼んで犬に語りかけている。

ジョークにも対応できる

カメラを通じて実際の景色をユーザーに案内し、ユーザーを補助している

デモ動画では、ユーザーに景色の説明をしたり、タクシーが来たことを教えてタクシーの乗車を助けている。

HoriiMitsuo

代表取締役 WEB業界でプロデュース、ディレクション実績多数。企業ホームページ、WEBサービスのコンサルティング、プロデュースを得意としています。