太贴心!OpenAI发布了类人化重大版本:GPT-4o


今天,OpenAI 发布了 GPT-4o。它就是我们梦寐以求的钢铁侠。

下面是迄今为止最不可思议的 5 个例子:

1、实时翻译
2、情绪和人脸检测:
3、通过语音指令理解/调试代码
4、生成各种基于情感的声音:
5、从视觉上理解图像、绘图和代码,编码 ELO 能力能提高 100 点


GPT-4o("o "表示 "omni")是向更自然的人机交互迈出的一步。

这应该是苹果 Siri 真正样子

它将面向免费用户并通过 API 提供。

===============================================================
今天openai 让大家失望了......别失望。现场直播面向的是普通消费者。 很酷的东西都 "藏 "在他们的网站上:

  • 在人工智能生成的图像中加入文字方面,领先于其他任何人
  • 对自己的文字图像能力非常自信,可以用 #GPT4-o 创建字体
  • 3d 渲染....
  • 声音效果合成,而不仅仅是语音
  • 结合实际情况上下文,有效地进行一次稳定的扩散微调!

=================================================================
OpenAI刚刚发布了ChatGPT-4 o,它将彻底改变AI助手游戏。
12个疯狂的例子

  1. 实时视觉助理:帮助盲人打车上车
  2. 帮助学生实时学习
  3. 实时翻译
  4. 会议助理
  5. 可实时中断并“改变情绪”:见风使舵
  6. 帮助您在图像中添加多行文本
  7. 实现会议记录
  8. 三维物体合成
  9. 海报创作:一致的多步骤图像创建,精确的文字渲染
  10. 诗意排版
  11. 有照片转换为漫画大头照
  12. 品牌形象定位
  13. 将文本生成各种字体:利用扩散图像生成文本的新技术;轻松实现图像生成的一致性;即使是手写草书也能生成一致的文本
=================================================================
OpenAI以AI的另一个重大突破赢得了互联网。 它将他们的ChatGPT功能提升到一个全新的水平。 以下是他们今天公布的7项革命性创新:
  • OpenAI推出了“GPT-4 Omni”,增强了其AI模型,以支持语音,文本和视觉,可供所有用户使用,包括免费帐户。
  • GPT—4 Omni'配备了新的语音助手。 

    - 它可以处理中断,
    - 实时响应 
    - 甚至能感受到

    听起来像"她"

  • ChatGPT获得实时视频模式。 您可以使用手机摄像头提问。
  • 您现在可以免费使用GPT商店和GPT-4视觉,浏览,内存和高级数据分析。 这对非付费用户来说是一座金矿。
  • ChatGPT现在有SELFIE情感检测,它可以真实的时间检测你的每一个情绪。
  • OpenAI还展示了其新的GPT—4o模型,可以进行实时翻译
  • 7/ ChatGPT有了了桌面应用程序和下一代语音和视频功能。
======================================================================
网友的llm 工具刚刚支持OpenAI 的新 GPT-4o模型:点这里

pipx install llm
llm keys set openai
<strong>Paste API key here</strong>
llm -m 4o "Fascinate me"

要升级现有安装,请执行此操作:

llm install --upgrade llm

自 0.13 版起新增九个插件:

  1. llm-claude-3 支持 Anthropic 的 Claude 3 模型系列。
  2. llm-command-r 支持 Cohere 的 Command R 和 Command R Plus API 模型。
  3. llm-reka 通过其 API 支持 Reka 系列模型。
  4. llm-perplexity 由 Alexandru Geana 设计,支持 Perplexity Labs 的 API 模型,包括 llama-3-sonar-large-32k-online (可在线搜索事物)和 llama-3-70b-instruct。
  5. llm-groq 由 Moritz Angermann 提供,用于访问由 Groq 托管的快速模型。
  6. llm-fireworks 支持由 Fireworks AI 托管的模型。
  7. llm-together 增加了对 Together AI 广泛的公开许可托管模型系列的支持。
  8. llm-embed-onnx 提供了可使用 ONNX 模型框架执行的七种嵌入模型。
  9. llm-cmd 接受 shell 命令提示符,运行该提示符并将结果填充到 shell 中,这样你就可以查看、编辑它,然后按 执行或按 ctrl+c 取消。

=========================================================================
与 GPT-4 相比,GPT-4o 的速度和额外的编码能力使其在分析方面非常强大。
"分析它。可视化它。进行复杂分析"
给定一个超级英雄的数据集,在没有其他背景上下文的情况下,它可以进行非常令人印象深刻的可视化、PCA、聚类分析......

  • 只需一个命令就能进行全面分析。不错。
  • 这次PCA 分析是真的?太多大模型胡编乱造!

===========================================================================
说 openai 的演示令人失望的人:

  • 要么是不了解这项技术,
  • 要么就是装作不以为然。
它之所以这么快,是因为它是一个能理解一切的单一集成模型,而不是使用多个模型。

=====================================================================
gpt4o = gpt4.75
gpt4o 比 gpt4 的改进幅度要比 3.5 相对 3 大得多!

现在,它几乎可以完成文本、图像、音频领域的所有工作!

======================================================================
网友讨论

1、测试者手持苹果Iphone与gpt4o对话风趣的对话, 像及了十年前刚刚发布的Siri!当然, 这可能是 OpenAI 为 苹果提供的演示,因为苹果已经决定和CHatGPT合作:

  • 两家公司一直在“敲定在苹果 iOS 18 中使用 ChatGPT 功能的协议条款”。目前尚不清楚这款流行的聊天机器人如何与苹果的软件集成。
  • 该协议将使 ChatGPT 成为 Apple 预计为 iPhone 带来的一系列人工智能功能中的另一个工具。
  • 苹果在下个月举行的年度全球开发者大会上预计将宣布iOS 18 中的多项人工智能功能,据称这是 iPhone 操作系统多年来最大的升级之一。

2、老实说,我真的无法想象15年后的世界会是什么样子,我们是多么幸运能够见证即将发生的一切,真的令人难以置信

3、如果“奇点”的概念是准确的,那么我们正处于它的早期阶段。这十年即将发生的事情将使过去的 40 年看起来像石器时代。

4、

  • 1980-1995:个人电脑
  • 1995-2008:互联网
  • 2008-2015:智能手机
  • 2015-2020:这里发生了什么?
  • 2020-???:人工智能

5、我今年 66 岁了。几乎每天都像我小时候在 60 年代和 70 年代读过的科幻故事一样。

6、我花了一些时间在操场上测试了新型号的图像识别和推理能力,结果让我大吃一惊。它能从我糟糕的笔迹中找出字符串,而这些字符串在写满笔记和方程式的纸上几乎无法辨认。(顺便说一句,它在所有方面都是正确的)。

  • 它能识别出不同的文字和图像,这些文字和图像都是用拙劣的涂鸦画成的。
  • 它甚至能从部分上下文中识别出字符串!我简直不敢相信它有这么好!

7、我在公交车上跪下来流下了喜悦的泪水,希望这些技术能够让人类进入黄金时代

8、总结:

  • 与人工智能进行交互式对话的能力(比当前的聊天应用程序要好得多)。
  • AI可以充当辅导员,帮助孩子做作业。不仅仅是给他们答案,还要帮助他们理解主题材料。
  • 看起来他们增强了人工智能的个性。所以感觉不太像人工智能,而更像一个正常人。
  • 绝对可以看到人们在聚会模式下使用它。