AI端侧应用、氛围编程

值得关注的雷达趋势：2024 年 7 月

#架构师资料教程 #AI人工智能指南 #编程语言平台比较

2024-07-22 5K banq

O'Reilly 的文章《值得关注的雷达趋势：2024 年 7 月》重点介绍了各个领域的几项新兴技术发展

人工智能
嵌入式 LLM：一个值得注意的进展是 llama.ttf，这种字体似乎嵌入了大型语言模型 (LLM)。这引发了人们对在基于文本的应用程序中嵌入 AI 的可能性及其相关的安全隐患的质疑。

字体本身可以自动生成文本。
它依赖于使用 Wasm 的 HarfBuzz 字体塑造引擎。
它在 Gimp 中工作；它也可能在 Chrome 和 Firefox 中工作。一切都在本地运行。

研究人员发现，与人工智能对话有助于消除人们对阴谋论的信仰。

Podman AI Lab是 Linux 用户尝试在本地运行 AI 的好方法。毫不奇怪，Podman 是基于容器的，这简化了将模型从桌面环境转移到生产环境的过程。

研究人员开发了一种基于 BERT 的模型来检测指示 LLM 生成网络钓鱼网站或电子邮件的恶意 LLM 提示。

Anthropic发布了其中型语言模型 Claude 3.5 Sonnet 的新版本。它声称其性能与 GPT-4o 和 Gemini 1.5 相似。新的 Artifacts 窗口允许与 Claude 输出进行交互。

如果游戏中的非玩家角色能够与你和其他人交谈会怎样？如果游戏结构随着游戏的进行而动态展开，而不是事先编写脚本会怎样？这就是生成式人工智能可以带给游戏的东西。

一个人工智能系统已被训练来数花的数量。这种能力在农业中有着重要的应用：如果你能数花，你就能预测农作物的产量。

Meta 开发了AudioSeal，这是一种为AI 生成的音频内容添加水印的系统。它的可靠性达到 90% 到 100%，可以识别插入较大文件中的小片段。AudioSeal 是免费的，可在 GitHub 上获取，不过 Meta 本身尚未使用它。

Cohere 的最新模型 Command R 可以使用多种外部工具来响应提示。它能够多步骤使用工具，其中它创建解决问题的计划，使用 API（在 JSON 文档中描述）访问外部工具并生成结果。

大型语言模型能写出喜剧吗？显然不能。想法不够新颖，模型难以处理不协调和意外，而且它们对对话的长度没有感觉。

Luma 的 Dream Machine是一款令人印象深刻的生成式 AI 工具，可以根据文本提示创建短视频。

NVIDIA宣布了一套用于生成合成训练数据的模型。这些模型的使用受新的开放模型许可协议管辖，该协议规定模型可用于商业用途，衍生模型可以自由分发，NVIDIA 不主张对模型输出的所有权。

RAG 对内容进行分块的新策略是使用句子 BERT（SBERT）来计算每个句子的嵌入，然后使用嵌入来检测主题的变化。

如果您使用 RAG 构建 AI 应用程序，请考虑使用图形数据库( GraphRAG ) 而不是矢量数据库。图形更难处理，但更善于提供适当的上下文来回答复杂的查询。

Google 的实验性Illuminate可将学术论文转化为类似访谈的讨论，总结要点。目前处于私人测试阶段。

Honeycomb 的工程副总裁表示，人工智能对开发前端代码比后端更有帮助，而且聊天通常是一种低效的用户界面。

OpenAI 和 Anthropic发布了从GPT和Claude模型中提取特征的研究。这代表着朝着可解释性或理解模型为何对提示做出特定响应迈出了重要一步。

你的狗想说什么？一项研究项目正在使用人工智能来解码狗的叫声。

Apple正在整合到 macOS 中的基于 Transformer 的语言模型。它非常小（据说只有 3400 万个参数），并且似乎基于 GPT-2——显然是为在手机等设备上运行而设计的，不会耗尽电池。

Codestral是 Mistral 推出的一款新型语言模型，专门用于代码生成。该模型已针对 80 多种语言进行了训练，据称其效果优于其他语言模型。
语言模型可以创建数据库模式——但模式很少永远保持不变。语言模型修改模式的能力有多强？

人工智能能帮助研究人员将气味数字化吗？数字化在视觉和听觉方面效果很好。嗅觉则远远落后。

人工智能能用来改善隐私吗？研究人员开发了应用程序，用于删除图像中的敏感部分，并用类似但不同的东西替换它们——有点像自动化的 Photoshop。

在 RAG 环境中使用知识图谱具有直观意义。在“GraphRAG”和“传统 RAG”的比较中，GraphRag 更胜一筹，因为该图谱对数据之间的关系进行了编码。

编程
Gleam是一种新型类型安全函数式语言。它可编译为 Erlang 和 JavaScript。其目标是使开发人员能够构建大型并发系统。

OpenTofu 是 Terraform 的开源分支，现在具有状态加密功能，这是一项备受期待的功能，已在 Terraform 的队列中等待了近十年。

Starlark是一种类似于 Python 的小型语言，用于描述如何构建代码。Starlark 的设计原则包括确定性和安全性；多次执行一个程序会产生相同的结果，并且它无法访问网络、文件系统或系统时钟。

WebAssembly 的一位共同创建者开发了一种名为Virgil 的新编程语言。它被设计为一种系统编程语言，尽管它的目的不是与 Zig 竞争（不管这意味着什么）。

詹姆斯·韦伯太空望远镜是数字孪生技术的一大进步。望远镜的数字模型被用来编排其在外太空的自我组装。孪生模型会持续监控望远镜并预测软件更新的效果。

Mesop是一款非常轻量级的 Python框架，可用于快速开发 Web 应用程序。它适合用于演示，但可能不适合用于生产。由 Google 构建，但不受支持。

AI 网关类似于 API 网关，但专门用于访问语言模型的 API。它们有助于监控、选择哪个模型来处理请求、缓存、安全性以及许多其他功能。

语言开发人员一直很忙。Grain语言是为编译 WebAssembly 而设计的。它受到 OCaml 的启发；模式匹配是一项关键功能。

GoFr是一个用 Go 构建微服务的框架。它整合了可观察性的工具，并支持使用多种不同的数据源。

Infrastructure from Code声称可以从代码本身推断出系统的基础设施要求，并且可以自动生成必要基础设施的规范。

安全
虽然目前还不清楚发生了什么，但似乎发生了针对 CDN 服务 Polyfill.io 的供应链攻击。Polyfill 声称他们受到了诽谤，并已转移到新域名。安全专家建议谨慎行事。

Progress Software 的 MoveIT 产品中存在一个新严重漏洞，正在被积极利用。攻击者可以冒充任何合法的 SFTP 用户，从而能够复制、删除或创建文件。攻击者还可以获取用户密码的加密哈希值。

美国将从7月份开始禁止销售卡巴斯基的杀毒软件。

Linux 恶意软件由 Discord 发送的表情符号控制？这很有创意。该恶意软件通过网络钓鱼传播，使用表情符号发送命令。表情符号显然可以逃避安全软件，因为安全软件认为命令是文本字符串。

一种新型网络钓鱼利用 Windows Search 协议下载恶意软件。另一种新型网络钓鱼利用渐进式 Web 应用程序 (PWA) 窃取凭据。
在人工智能 Windows 11 的 Recall 功能受到广泛批评后，微软宣布该功能将默认禁用。Recall 的发布已被推迟；它将首先提供给 Windows Insider 计划，本质上是一个私人测试版。

随着人工智能的重要性日益增加，Hugging Face 已成为威胁行为者的目标。最近，攻击者从Spaces窃取了授权令牌。

Web
使用 WebAssembly在浏览器中实现“模拟城市”？令人印象深刻。

UIX是一个新的全栈 Web 开发框架。它是更大的Unyt项目的一部分，该项目的宏伟目标是开发下一代去中心化互联网。
BBC Ventures 正在投资一个 3D 视频流平台。

Hotwire是一种构建 Web 应用程序（具体来说，单页应用程序或 SPA）的方法，它发送 HTML 而不是 JSON 来封装复杂数据。其目标是最大限度地减少对 JavaScript 的需求。

Cobalt是一个非常轻量级的平台，用于运行由 HTML5、CSS 和 JavaScript 构建的应用程序。它的制造商 Google 提到 YouTube 是一个典型的应用程序，但我认为它可以用于更有趣的工作。

Adrian Holovaty 的Soundslice集成了音乐扫描功能：您可以上传 PDF 或乐谱照片，然后 Soundslice 会对其进行分析。然后您可以编辑、重新排列和播放乐谱。

硬件
连接器的开放标准？如果您想要非常高的性能而又不必获得专有设计的许可，那么这一点很重要。

Energy Meter是一款用于测量英特尔 CPU 功耗的工具。虽然它无法计算 GPU，但在当今耗电的 AI 应用中，它可能很有用。它运行在 Linux 上，但世界上大多数服务器都是 Linux。

三菱公司制造的机器人可以在0.305 秒内解开魔方。他们的最好成绩是 0.204 秒，但根据吉尼斯纪录，这并不是在适当的条件下取得的。
密歇根湖上正在使用救生机器人帮助溺水者漂浮在水面上，直到救生员到达。

生物学
Precision Neuroscience已成功在人脑中植入了 4,096 个微型电极阵列。通过这种方式，他们实现了比以前的植入物（包括 Neuralink 的植入物）更高的神经元活动分辨率。