Directory
o1模型登上秀场
o1模型新功能曝出
o1图像理解神秘现身
o1模型也有软肋
关于奥特曼的QA环节

o1模型五大核心能力曝出,图像理解功能也神秘现身：o1正式发布近在眼前

xx

2024-11-08

Share :

OpenAI在伦敦开发者日上，曝出了o1模型五大核心能力，还有图像理解。奥特曼还透露图像模型将很快迎来显著提升。o1现场演示构建应用驾驶无人机、电话订餐、讲解太阳系，让所有开发者沸腾。近期，貌似完整版o1图像理解能力，还被提前放出。网友们纷纷晒出，自己获得了o1图像理解新功能，o1多模态一大波试用已经铺屏全网。一系列证据表明，o1正式发布可能近在眼前。

AI模型在不断地升级优化，就像XXAI，优化了模型，集合热门AI平台为一体，实现一体化解决所有问题，而且不提高价格。推出的新型AI模型也越来越多，就像之前一鸣惊人的red_panda模型。我们对市场上的AI模型都给予了高度的额关注，也热情的迎接着它们的到来！

图片1.png

o1模型登上秀场

图片2.png

在举办的OpenAI伦敦开发者日上，开发者体验主管Romain Huet带着o1模型登上秀场。

一些现场展示情况如下：

利用o1 mini联动Cursor在不到2分钟时间内，搭建了一个可以交互的应用驾驶无人机表演后空翻。

图片3.png

利用RealTimeAPI，构建实时语音AI智能体向卖家订餐。

图片4.png

o1模型新功能曝出

图片5.png

OpenAI产品部负责人Olivier Godement在举办的OpenAI伦敦开发者日上剧透了o1模型新功能。包含功能调用、开发者消息、流媒体、结构化输出、图像理解5个方面。而且奥特曼表示图像模型将很快迎来显著提升，他们始终在创造新的突破。我们对其表示很期待。

o1图像理解神秘现身

完整版o1图像理解新功能，被提前放出了。网友曝出o1模型能够识图，进行推理总结，自己获得了o1图像理解新功能。

图片6.png

但是好笑的是，o1的图像理解功能并非官方发布，可能是OpenAI底层微服务崩溃了，还没来得及修补。即使如此，网友们也抓住机会，开始了一大波o1图像理解测试。

下面是测试情况展示：

o1模型完美解释给出图片是什么。

图片7.png

分析海底光纤通信电缆地图，o1模型通过多步思考准确给出，这些电缆横跨大洋，连接着世界上不同的大陆和地区。

图片8.png

o1模型也有软肋

o1图像理解的推理速度让我们信服，但是我们也了解到o1模型还没有完全超越图像，实现全多模态理解的准备。

o1模型还无法“读懂”视频.

图片9.png

在视觉问题的解决上也有点无能为力。

图片10.png

关于奥特曼的QA环节

图片11.png

问：我们应该期待像o1这样的模型还是更大规模的模型？

奥特曼：希望全面提升大语言模型的性能，但这个推理思路很重要。不方便透露太多细节，但我预计视觉模型领域会有突破性进展。

问：在技术整合方面会达到什么程度？基于OpenAI构建产品的AI创业公司应该如何规划？

奥特曼：建议创始人应该打造这样的公司——既能充分利用当前大语言模型的优势，又能在未来模型升级时获得更大发展空间。

问：什么是AI智能体？

奥特曼：一个可以接受长期任务并且在执行过程中只需少量监督的系统。我认为Harrison Chase在Langchain的博客中给出的定义更加严谨，但从商业角度来看，这个定义很实用。

问：AI智能体能做什么？

奥特曼：它们能够完成人类因能力限制而无法完成的任务，比如同时与300家餐厅进行通话，让AI智能体在每家餐厅进行交谈并即时收集信息。或者说，它像一位极其智慧的高级同事，你可以放心地交给他两天或一周的工作任务。

说实话，我很讨厌agentic这个词。不让我们一起边讨论边思考，然后创造一个新词吧！

黑神话！AI视频的真假你分得清吗？

12个AI模型如何应对席卷全网老公的瑞士卷难题