ChatGPT搜索免费开放等五则AIGC产品新闻

#大语言模型LLM

2024-12-17 2K banq

1、OpenAI 今天宣布，ChatGPT 的搜索功能现在对全球所有注册用户免费，取消了之前仅限付费的限制。
该公司表示，近几个月来一直在提高搜索速度和可靠性，尤其是针对移动用户。此次更新带来了几项新功能，包括内置地图和语音搜索。用户现在还可以将ChatGPT设置为默认浏览器搜索引擎。

为了展示这些改进，OpenAI 发布了几个演示，重点介绍了 ChatGPT 如何帮助完成日常任务，例如查找当地活动、选择餐厅和计划假期。该系统从网络中提取当前信息，并以文本、图像、视频和交互式地图的混合形式呈现结果。

2、Meta 宣布推出 Video Seal，这是一款新型神经水印系统，可帮助识别经过编辑的 AI 生成的视频。
水印对观看者来说仍然是不可见的，但可以在之后检测到以验证视频的来源。

该公司根据 MIT 许可将整个系统作为开源软件提供，包括Video Seal 水印模型、研究论文以及训练和推理代码。

Meta 还发布了一个交互式演示，让用户可以测试该技术。

除了 Video Seal，Meta 还推出了另外两款工具：Omni Seal Bench，它提供跨不同类型媒体的神经水印的比较排名，以及Meta Watermark Anything，也是根据 MIT 许可发布的。

3、伊隆·马斯克的 Grok AI on X 现在速度更快，并引用了传统媒体作为来源
xAI 宣布升级其GrokAI 聊天机器人，新版本有望提升性能，该公司表示其在快速跟进能力方面将与 Sonnet 3.5 相媲美。

升级后的模型可供 X 平台的所有用户免费使用，高级用户可获得更高的使用限制和附加功能。xAI 报告称，Grok-2 比其前代产品快三倍，同时提供更高的准确性和扩展的语言支持。

Grok-2 现在整合了X 帖子和外部网站（尤其是新闻来源）的信息，以提供更及时、更详细的回复。该系统在回复中附上了来源引文。

4、Meta 开发了一种名为 Byte Latent Transformer (BLT) 的新 AI 架构，以解决当今语言模型的一个基本问题：它们无法可靠地处理单个字母。

目前的人工智能系统很难完成像计算“mayonnaise”中字母“n”出现的次数这样简单的任务。这种限制来自于这些模型处理文本的方式——它们将文本分割成称为标记的短字符串，这意味着它们无法直接访问单个字母。

基于标记的方法也使得处理图像和声音等不同类型的数据变得困难。使用标记好处是比处理原始字节节约计算能力。

BLT 不使用标记，而是直接在字节级别处理数据。为了控制计算需求，系统会动态地将字节分组为块。在处理简单、可预测的文本时，BLT 会将字节组合成更大的块。对于复杂的文本段落，它会创建较小的块并投入更多的计算能力来处理它们。

这并不是 Meta 首次尝试超越分词器。2023 年 5 月，该公司发布了MegaByte，这是一种类似但灵活性较差的方法。当时，著名的 AI 开发人员 Andrej Karpathy 指出，删除分词器是推进语言模型的一个关键目标，尽管这些方法尚未得到广泛采用。

5、谷歌今天发布了两款全新 AI 模型：用于视频生成的 Veo 2 和用于图像的 Imagen 3。据人类评测人员称，这两款模型都在各自领域树立了新的标杆。

新款 Veo 2 可以生成 4K 视频，并响应特定的电影制作指令，包括不同类型的镜头和相机效果。与之前只能拍摄短片的型号不同，Veo 2 的视频可以“延长到几分钟”。

谷歌表示，Veo 2 的一项改进是它处理常见的 AI 生成问题的方式。该模型产生的“幻觉”更少了——AI 生成的内容中经常出现的奇怪伪像，例如多余的手指或随机物体。谷歌还表示，该模型在表现现实物理方面已经变得更好。

该公司使用 Meta 的 MovieGenBench 数据集中的 1,003 个提示进行了直接比较测试，由人类评分员评估 720p 分辨率、八秒的视频片段。在这些面对面的比较中，Veo 2在整体视频质量和遵循给定指令的程度方面都领先于其竞争对手，包括 OpenAI 的 Sora Turbo。

该模型仍然难以处理复杂的场景和运动序列。

除了 Veo 2，谷歌还宣布了其图像生成 AI 的重大更新。得益于多项内部改进，新款Imagen 3 型号可以生成色彩平衡更佳、更生动的图像。

Imagen 3 现在可以处理更广泛的艺术风格。无论您是在寻找照片写实图像、印象派绘画、抽象艺术还是动漫风格的插图，该模型都可以相应地进行调整。该公司还强调 Imagen 3 能够创建更详细的图像，具有更好的纹理和更精细的元素。