ChatGPT搜索免费开放等五则AIGC产品新闻

1、OpenAI 今天宣布ChatGPT 的搜索功能现在对全球所有注册用户免费,取消了之前仅限付费的限制。
该公司表示,近几个月来一直在提高搜索速度和可靠性,尤其是针对移动用户。此次更新带来了几项新功能,包括内置地图和语音搜索。用户现在还可以将ChatGPT设置为默认浏览器搜索引擎。

为了展示这些改进,OpenAI 发布了几个演示,重点介绍了 ChatGPT 如何帮助完成日常任务,例如查找当地活动、选择餐厅和计划假期。该系统从网络中提取当前信息,并以文本、图像、视频和交互式地图的混合形式呈现结果。

2、Meta 宣布推出 Video Seal,这是一款新型神经水印系统,可帮助识别经过编辑的 AI 生成的视频。
水印对观看者来说仍然是不可见的,但可以在之后检测到以验证视频的来源。

该公司根据 MIT 许可将整个系统作为开源软件提供,包括Video Seal 水印模型、研究论文以及训练和推理代码。

Meta 还发布了一个交互式演示,让用户可以测试该技术。

除了 Video Seal,Meta 还推出了另外两款工具:Omni Seal Bench,它提供跨不同类型媒体的神经水印的比较排名,以及Meta Watermark Anything,也是根据 MIT 许可发布的。

3、伊隆·马斯克的 Grok AI on X 现在速度更快,并引用了传统媒体作为来源
xAI 宣布升级其GrokAI 聊天机器人,新版本有望提升性能,该公司表示其在快速跟进能力方面将与 Sonnet 3.5 相媲美。

升级后的模型可供 X 平台的所有用户免费使用,高级用户可获得更高的使用限制和附加功能。xAI 报告称,Grok-2 比其前代产品快三倍,同时提供更高的准确性和扩展的语言支持。

Grok-2 现在整合了X 帖子和外部网站(尤其是新闻来源)的信息,以提供更及时、更详细的回复。该系统在回复中附上了来源引文。

4、Meta 开发了一种名为 Byte Latent Transformer (BLT) 的新 AI 架构,以解决当今语言模型的一个基本问题:它们无法可靠地处理单个字母。

目前的人工智能系统很难完成像计算“mayonnaise”中字母“n”出现的次数这样简单的任务。这种限制来自于这些模型处理文本的方式——它们将文本分割成称为标记的短字符串,这意味着它们无法直接访问单个字母。

基于标记的方法也使得处理图像和声音等不同类型的数据变得困难。使用标记好处是比处理原始字节节约计算能力。

BLT 不使用标记,而是直接在字节级别处理数据。为了控制计算需求,系统会动态地将字节分组为块。在处理简单、可预测的文本时,BLT 会将字节组合成更大的块。对于复杂的文本段落,它会创建较小的块并投入更多的计算能力来处理它们。

这并不是 Meta 首次尝试超越分词器。2023 年 5 月,该公司发布了MegaByte,这是一种类似但灵活性较差的方法。当时,著名的 AI 开发人员 Andrej Karpathy 指出,删除分词器是推进语言模型的一个关键目标,尽管这些方法尚未得到广泛采用。

Meta 已在 GitHub 上发布了代码和研究成果

5、谷歌今天发布了两款全新 AI 模型:用于视频生成的 Veo 2 和用于图像的 Imagen 3。据人类评测人员称,这两款模型都在各自领域树立了新的标杆。

新款 Veo 2 可以生成 4K 视频,并响应特定的电影制作指令,包括不同类型的镜头和相机效果。与之前只能拍摄短片的型号不同,Veo 2 的视频可以“延长到几分钟”。

谷歌表示,Veo 2 的一项改进是它处理常见的 AI 生成问题的方式。该模型产生的“幻觉”更少了——AI 生成的内容中经常出现的奇怪伪像,例如多余的手指或随机物体。谷歌还表示,该模型在表现现实物理方面已经变得更好。

该公司使用 Meta 的 MovieGenBench 数据集中的 1,003 个提示进行了直接比较测试,由人类评分员评估 720p 分辨率、八秒的视频片段。在这些面对面的比较中,Veo 2在整体视频质量和遵循给定指令的程度方面都领先于其竞争对手,包括 OpenAI 的 Sora Turbo

该模型仍然难以处理复杂的场景和运动序列 。

除了 Veo 2,谷歌还宣布了其图像生成 AI 的重大更新。得益于多项内部改进,新款Imagen 3 型号可以生成色彩平衡更佳、更生动的图像。

Imagen 3 现在可以处理更广泛的艺术风格。无论您是在寻找照片写实图像、印象派绘画、抽象艺术还是动漫风格的插图,该模型都可以相应地进行调整。该公司还强调 Imagen 3 能够创建更详细的图像,具有更好的纹理和更精细的元素。