当地时间3月25日,美国开放人工智能研究中心(OpenAI)宣布推出4o图像生成功能 ,OpenAI的CEO奥特曼称GPT-4o为“有史以来最好的模型 ”,并宣布将全面免费开放基础功能,API调用价格下调50%。
奥特曼当地时间周二直播活动中宣布 ,正式推出基于 GPT-4o 模型的原生图像生成功能,不再调用独立的 DALL-E 文生图模型 。利用GPT-4o的多模态能力,ChatGPT在图像生成时能更加精确地遵循指示、更精确地渲染图像上的文字 ,同时支持多轮迭代优化图像时保持角色形象一致。
从官方给出的示例来看,不管是生成黑板板书,还是印刷体 、展示科学常识的绘图 ,ChatGPT在生成图像文字领域终于从完全不能用,达到接近商用的程度。
不过,OpenAI承认新图像生成器还存在局限性,会受到模型幻觉影响 ,在密集文字和非拉丁语文字图像生成方面易出问题 。
ChatGPT在2022年底上线,最初只能生成和编辑文本,不能生成图像。大约一年后 ,OpenAI发布第三代图像生成模型DALL-E 3,并集成到ChatGPT,但两者一直是互相独立的系统 ,AI图像生成器“理解提示词能力差”。
此次推出基于 GPT-4o 模型的原生图像生成功能的举措,被视为应对谷歌Gemini等竞品的技术压力 。
今年阿里巴巴、谷歌先后推出能准确生成文字的文生图模型。其中,谷歌其旗舰模型之一的 Gemini 2.0 Flash 推出实验性原生图像输出功能之后,在社交媒体上迅速传播。但Gemini 2.0 Flash 的图像组件几乎没有防护措施 ,人们可以去除水印并创建描绘受版权保护角色的图像 。
OpenAI 首席运营官布拉德・莱特卡普在一份声明中表示:“在输出方面,我们尊重艺术家的权利,并且我们有相应的政策来防止我们生成直接模仿任何在世艺术家作品的图像。”
即日起,所有Plus、Pro 、Team及免费用户将陆续在ChatGPT和Sora中体验该功能 ,企业版与教育版即将接入,Sora平台同步启用。开发者即将通过API调用GPT-4o图像生成功能,接口权限将于未来数周内开放。
科技早报 | 消息称苹果与阿里合作开发AI功能;OpenAI CEO表示希望与中国合作|界面新闻 · 科技
瑞松科技:拟使用超募资金9000万日元购买松下互联株式会社高精高速并联机器人项目相关资产|界面新闻 · 快讯
《人工智能生成合成内容标识办法》正式发布,将对行业带来哪些影响?|界面新闻 · 科技
腾讯撤回“微信蓝包”商标注册,马化腾:希望外界不要对“送礼物”功能过度吹捧 |界面新闻 · 科技
OpenAI连更首日:“满血版”o1和“天价”ChatGPT Pro登场|界面新闻 · 科技
汇绿生态:拟向钧恒科技增资实现控制,构成重大资产重组|界面新闻 · 快讯
美力科技:公司应用于人形机器人的弹簧处于小批量交样阶段,短期内对业绩无重大影响|界面新闻 · 快讯
科技早报|OpenAI正式推出AI视频生成模型Sora;英伟达涉嫌违反反垄断法,市场监管总局立案调查|界面新闻 · 科技
还没有评论,来说两句吧...