o1模型五大核心能力曝出,图像理解功能也神秘现身:o1正式发布近在眼前

xx
2024-11-08
Share :

image.png

OpenAI在伦敦开发者日上,曝出了o1模型五大核心能力,还有图像理解。奥特曼还透露图像模型将很快迎来显著提升。o1现场演示构建应用驾驶无人机、电话订餐、讲解太阳系,让所有开发者沸腾。近期,貌似完整版o1图像理解能力,还被提前放出。网友们纷纷晒出,自己获得了o1图像理解新功能,o1多模态一大波试用已经铺屏全网。一系列证据表明,o1正式发布可能近在眼前。

AI模型在不断地升级优化,就像XXAI,优化了模型,集合热门AI平台为一体,实现一体化解决所有问题,而且不提高价格。推出的新型AI模型也越来越多,就像之前一鸣惊人的red_panda模型。我们对市场上的AI模型都给予了高度的额关注,也热情的迎接着它们的到来!

图片1.png

o1模型登上秀场

图片2.png

在举办的OpenAI伦敦开发者日上,开发者体验主管Romain Huet带着o1模型登上秀场。

一些现场展示情况如下:

利用o1 mini联动Cursor在不到2分钟时间内,搭建了一个可以交互的应用驾驶无人机表演后空翻。

图片3.png

利用RealTimeAPI,构建实时语音AI智能体向卖家订餐。

图片4.png

o1模型新功能曝出

图片5.png

OpenAI产品部负责人Olivier Godement在举办的OpenAI伦敦开发者日上剧透了o1模型新功能。包含功能调用、开发者消息、流媒体、结构化输出、图像理解5个方面。而且奥特曼表示图像模型将很快迎来显著提升,他们始终在创造新的突破。我们对其表示很期待。

o1图像理解神秘现身

完整版o1图像理解新功能,被提前放出了。网友曝出o1模型能够识图,进行推理总结,自己获得了o1图像理解新功能。

图片6.png

但是好笑的是,o1的图像理解功能并非官方发布,可能是OpenAI底层微服务崩溃了,还没来得及修补。即使如此,网友们也抓住机会,开始了一大波o1图像理解测试。

下面是测试情况展示:

o1模型完美解释给出图片是什么。

图片7.png

分析海底光纤通信电缆地图,o1模型通过多步思考准确给出,这些电缆横跨大洋,连接着世界上不同的大陆和地区。

图片8.png

o1模型也有软肋

o1图像理解的推理速度让我们信服,但是我们也了解到o1模型还没有完全超越图像,实现全多模态理解的准备。

o1模型还无法“读懂”视频.

图片9.png

在视觉问题的解决上也有点无能为力。

图片10.png

关于奥特曼的QA环节

图片11.png

问:我们应该期待像o1这样的模型还是更大规模的模型?

奥特曼:希望全面提升大语言模型的性能,但这个推理思路很重要。不方便透露太多细节,但我预计视觉模型领域会有突破性进展。

问:在技术整合方面会达到什么程度?基于OpenAI构建产品的AI创业公司应该如何规划?

奥特曼:建议创始人应该打造这样的公司——既能充分利用当前大语言模型的优势,又能在未来模型升级时获得更大发展空间。

问:什么是AI智能体?

奥特曼:一个可以接受长期任务并且在执行过程中只需少量监督的系统。我认为Harrison Chase在Langchain的博客中给出的定义更加严谨,但从商业角度来看,这个定义很实用。

问:AI智能体能做什么?

奥特曼:它们能够完成人类因能力限制而无法完成的任务,比如同时与300家餐厅进行通话,让AI智能体在每家餐厅进行交谈并即时收集信息。或者说,它像一位极其智慧的高级同事,你可以放心地交给他两天或一周的工作任务。

说实话,我很讨厌agentic这个词。不让我们一起边讨论边思考,然后创造一个新词吧!