o1モデルの5つのコア機能が公開、画像理解機能も神秘的に現れる:o1正式リリースは間近か

xx
2024-11-08
Share :

image.png

OpenAIはロンドン開発者デーで、モデルo1の5つの主要能力と画像理解機能を発表しました。Altmanは、画像モデルがまもなく大幅に向上することも明らかにしました。o1のライブデモでは、ドローンの操作、電話注文、太陽系の説明などのアプリケーションの構築が行われ、全ての開発者を興奮させました。最近、完全版のo1画像理解能力が事前に公開されたようです。ユーザーたちはo1の新しい画像理解機能を取得したと投稿し、o1のマルチモーダル試用が全ネットワークに広がっています。一連の証拠は、o1の正式リリースが近いことを示しています。

AIモデルは絶えずアップグレードと最適化が行われており、XXAIのように、モデルを最適化して人気のAIプラットフォームを統合し、価格を上げることなくすべての問題を統一的に解決しています。新しいタイプのAIモデルも次々と登場しており、以前のred_pandaモデルのように驚異的な影響を与えています。私たちは市場のAIモデルに高い関心を持ち、それらの登場を熱烈に歓迎しています!

图片1.png

o1モデルがショーに登場

图片2.png

OpenAIロンドン開発者デーで、開発者体験部門のRomain Huetがo1モデルをショーに持ち上げました。現場でのいくつかのデモの状況は以下の通りです:

o1 miniとCursorを連動させて、2分足らずでドローンを操作するインタラクティブなアプリケーションを構築し、後方でフリップを実演。

图片3.png

RealTimeAPIを利用して、リアルタイムの音声AIエージェントを構築し、売り手に電話で注文。

图片4.png

o1モデルの新機能が発表

图片5.png

OpenAI製品部門責任者Olivier Godementは、ロンドン開発者デーでo1モデルの新機能を先行公開しました。これには、機能呼び出し、開発者メッセージ、ストリーミング、構造化された出力、画像理解の5つの側面が含まれています。また、Altmanは画像モデルがまもなく顕著な向上を迎えると述べ、常に新しい突破口を創造していることを明らかにしました。私たちはこれを非常に楽しみにしています。

o1画像理解の神秘的な登場

完全版のo1画像理解新機能が事前に公開されました。ユーザーはo1モデルが画像を識別し、推論と要約を行うことができると報告し、自分自身でo1の新しい画像理解機能を取得しました。

图片6.png

しかし、面白いことに、o1の画像理解機能は公式には公開されておらず、OpenAIの基盤となるマイクロサービスがクラッシュし、まだ修復されていない可能性があります。それにもかかわらず、ユーザーはその機会を利用して、大量のo1画像理解テストを開始しました。以下はテスト状況の一部です:

o1モデルが画像の内容を完璧に説明。

图片7.png

海底光ファイバー通信ケーブルの地図を分析し、o1モデルが多段階の思考を経てこれらのケーブルが大洋を横断し、世界の異なる大陸や地域をつないでいることを正確に指摘。

图片8.png

o1モデルにも弱点あり

o1の画像理解の推論速度には信頼を置けますが、o1モデルはまだ画像を完全に超越しておらず、完全なマルチモーダル理解の準備ができていないことがわかりました。

o1モデルはまだ「ビデオを読み取る」ことができません。

图片9.png

視覚的な問題の解決にも若干の無力さを見せています。

图片10.png

AltmanとのQ&Aセッション

图片11.png

質問: 我々はo1のようなモデルを期待すべきか、それともより大規模なモデルを期待すべきか?

Altman: 大規模な言語モデルのパフォーマンスを全面的に向上させることを望んでいますが、この推論の考え方は非常に重要です。詳細を多く漏らすのは適切ではありませんが、視覚モデルの分野で画期的な進展があると予測しています。

質問: 技術的統合の程度はどれほどになると考えていますか?OpenAIを基盤とした製品を構築するAIスタートアップはどのように計画すべきですか?

Altman: 創業者には、現行の大規模言語モデルの利点を十分に活用しつつ、将来のモデルアップグレード時に更なる発展の余地を得られるような会社を構築することを勧めます。

質問: AIエージェントとは何ですか?

Altman: 長期的なタスクを受け入れ、実行中にわずかな監督のみを必要とするシステムです。Harrison ChaseがLangchainのブログで提供した定義の方がより厳密だと思いますが、ビジネスの観点から見ると、この定義は非常に実用的です。

質問: AIエージェントは何ができますか?

Altman: 人間が能力の制限により完了できないタスクを完了することができます。例えば、同時に300のレストランと通話し、AIエージェントが各レストランと会話して情報をリアルタイムで収集することができます。あるいは、非常に賢く高度な同僚のようなもので、2日間や1週間の仕事を安心して任せることができます。正直なところ、「agentic」という言葉が嫌いです。一緒に議論しながら考え、新しい言葉を作りませんか!