AI大语言模型、AGI

AI生成的互联网时代已经到来

#大语言模型LLM #SEO教程

2024-01-28 2K banq

自从ChatGPT上市以来，人工智能生成的内容一直在稳步渗透到互联网中。人工智能已经存在了几十年。但面向消费者的 ChatGPT 已将人工智能推向主流，为高级人工智能模型创造了前所未有的可访问性，并满足了企业渴望利用的需求。

因此，公司和用户都在利用生成式人工智能来生成大量内容。虽然最初的担忧是大量内容包含不准确、胡言乱语和错误信息，但长期影响是网络内容完全退化为无用的垃圾。

垃圾进垃圾出
随着大模型 LLM 相互借鉴对方的内容，质量越来越差，越来越模糊，就像图片的复印件的复印件。

试想一下：ChatGPT 的第一个版本是最后一个完全由人工生成内容的模型。从那以后，每个模型的训练数据都包含人工智能生成的内容，这些内容很难验证，甚至很难跟踪。这就变成了不可靠的数据，说白了就是垃圾数据。

"乱伦学习"：大模型LLM就是一个大家庭，他们只是在互相消费对方的内容，进行交叉授粉，每一代人都会有......越来越多的垃圾，以至于垃圾超过了好的内容，事情就从那里开始恶化。

随着更多人工智能生成的内容被推送到网络上，而这些内容又是由受过人工智能生成内容训练的大模型生成的，我们将看到一个完全同质化、完全不可靠的未来网络。同时，也非常无聊。

模型崩溃、互联网崩溃
在一些备受瞩目的例子中，艺术品正在被机器人复制。未经作者许可，大模型将书籍整本吞下并复制。使用名人的声音和肖像制作的图片和视频未经其同意和补偿。

但现有的版权法和知识产权法已经对此类侵权行为提供了保护。此外，一些公司正在拥抱人工智能合作，如 Grimes 与人工智能音乐创作者达成了收入共享协议，还有一些唱片公司正在探索与人工智能技术公司达成许可协议。在政策方面，立法者提出了《无假货法案》，以保护公众人物免受人工智能复制品的侵害。解决所有这些问题的法规尚未出台，但解决这些问题至少是可以想象的。

然而，网上一切事物整体质量的下降是一个更加隐蔽的现象，研究人员已经证明了这一现象将变得更加严重的原因。

2023年发表的另外两篇学术论文也得出了同样的结论，即人工智能模型在合成数据（也就是人工智能生成的数据）上训练时会退化。根据牛津大学、剑桥大学、伦敦帝国理工学院、多伦多大学和爱丁堡大学研究人员的一项研究，"在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷，原始内容分布的尾部会消失。"他们将这种情况称为 "模型崩溃"。

缺乏多样性是根本问题所在，因为如果人工智能模型试图取代人类的创造力，那么它就会离这个目标越来越远。

人工智能生成的互联网概览
随着模式崩溃的逼近，人工智能生成的互联网已经到来。

亚马逊推出了一项新功能，提供人工智能生成的产品评论摘要。
谷歌和微软的工具利用人工智能帮助起草电子邮件和文件，
Indeed 在 9 月份推出了一款工具，让招聘人员创建人工智能生成的职位描述。
DALL-E 3 和 Midjourney 等平台可让用户创建人工智能生成的图像并在网络上分享。

不管是像亚马逊那样直接输出人工智能生成的内容，还是像谷歌、微软、Indeed、OpenAI 和 Midjourney 那样为用户提供服务，让他们自己发布人工智能生成的内容，这些都已经出现了。

真正的肇事者是点击诱饵网站，这些网站为了获得高搜索引擎优化排名和收入，提供低质量、高流量的重复内容。

404 Media 最近的一份报告发现，有许多网站 "通过使用人工智能来快速制作内容，欺骗其他媒体"。

在谷歌学术网上，用户发现了一个包含 "作为人工智能语言模型 "短语的学术论文缓存，这意味着论文的部分内容--或者大家都知道的整篇论文--是由 ChatGPT 这样的聊天机器人撰写的。人工智能生成的研究论文本应具有一定的学术可信度，但却可以作为权威参考资料出现在新闻网站和博客上。

即使是谷歌搜索，有时也会出现人工智能生成的名人肖像，而不是新闻照片或电影剧照。

Instagram 上利用汤姆-汉克斯（Tom Hanks）的肖像推销牙科计划的广告、未经斯嘉丽-约翰逊（Scarlett Johansson）同意而使用其脸部和声音的照片编辑应用程序，以及德雷克（Drake）和 The Weeknd（The Weeknd）的那首火热歌曲，实际上是未经授权的音频深度伪造，听起来与他们一模一样。

互联网还没有完全毁灭
尽管AI生成内容已经广泛存在于互联网，但社区和组织将采取措施保护其内容免受AI模型的侵害，并预计互联网将迎来新的发展趋势和商业模式：

期待社区和组织通过保护自己的内容免受人工智能模型的侵蚀来进行反击。开放的、广告支持的、基于搜索的网络可能会消失，但互联网会不断发展。期待更多知名媒体网站将其内容置于付费墙之后，并期待来自订阅者通讯的可信信息。
预计会有更多像 "夜影 "这样的工具出现。"夜影 "是一种隐形工具，通过试图破坏在图像上训练的模型来保护受版权保护的图像。期待开发出先进的新型水印和验证工具，以防止人工智能窃取。
反过来，你也可以期待美联社等其他新闻出版机构--可能还有 CNN、福克斯和《时代》--拥抱生成式人工智能，并与 OpenAI 这样的公司达成授权协议。
随着 ChatGPT 和谷歌 SGE 等工具成为传统搜索的替代品，建立在搜索引擎优化基础上的收入模式也将随之改变。

总之：
然而，模型崩溃的一线希望是需求的丧失。目前，生成式人工智能的扩散是由炒作决定的，如果在低质量内容上训练出来的模型不再有用，需求就会枯竭。剩下的（但愿）就是我们这些弱智的人类了，我们在网上咆哮、过度分享、提供信息和以其他方式表达自己，这些冲动是无法抑制的。