机器学习教程 - 第11页

模型是数据科学的核心输出，它们具有改变公司、行业和社会的巨大力量。每个机器学习或人工智能应用程序的核心是使用数据、算法和代码构建的 ML/AI 模型。尽管模型看起来像软件并涉及数据，但模型具有不同的输入材料、不同的开发过程和不同的行为。创建模型的过程称为建模。

几天前，Tesla Dojo 项目的负责人 Genesh Venugopal 宣布了 Dojo（道场）机器学习培训系统。这是一个异常丰富的网络、功率密集和内存轻的设计。特斯拉打破了制造计算机的所有规则并建立了行业标准。特斯拉已经

统计学是机器学习的四大支柱之一，另外三个是线性代数、微积分和概率。要在机器学习或数据科学方面表现出色，你应该掌握的一件事是统计学。在这里，我用例子写了常用术语。统计分为两部分，分别是：描述性统计:探索数据（尚无观点）。了解我们拥有什么类型的数据，我们拥有多少样

真正的挑战不是是否做对了，而是知道自己走错到什么程度了。我深入地探索了理性的领域：事实证明，这里有一场日益壮大的理性运动，有着自己的精神、思想风格和知识体系，大量来自心理学和经济学。和 Greg 一样，我阅读了一系列理性博客——Marginal Revolution、Farnam S

GitHub 支持人员在一封电子邮件中直接确认，是的，他们使用了所有公共 GitHub 代码，用于 Codex/Copilot，无论许可证如何。这下引发了轩然大波：这是一个很大的问题，是否允许您使用受版权保护/受保护的材料来训练 ML 模型？令人恼火的是，

来自biztechmagazine报道：麻省理工学院电气工程和计算机科学教授 Sam Madden 指出，机器学习算法通常更像是“黑暗艺术而不是科学”。搅动数据的算法通常是不透明的，而且

thenewstack这篇文章强调了语言上下文的重要性：#上下文为王，即使像 GPT-3 这样的大型语言模型也缺乏“对于特定领域的任何真正基础经验和知识，远远达不到的人类理解意图、上下文和意义的层次“：语言是一种引人入胜的结构，它是人类如何分享和理解思想和知识的核心。对于如此复杂和

相关性：通过了解A我们可以预测B；因果性：通过改变A我们可以控制B。相关性比因果关系弱，但仍然非常有用。

来自彭博社报道：Stephen Normandin是亚马逊的合同司机，近四年的时间都是在凤凰城附近运送包裹。然后有一天，他收到了一封自动发送的电子邮件，跟踪他的算法判定他没有正确地完成他的工作。这位 63 岁的退伍军人惊呆了。他被机器解雇了。在亚马逊，机器人老板在很少或根本没

科学方法——基于观察过程、提出假设，然后通过实验来证明或反驳该假设——几个世纪以来一直是现代科学的基石。这是一种被许多科学领域使用的技术，因为它提供了一个结构化的指南，可以使用经验证据来逻辑地和理性地回答一个问题。这种方法将人类带出黑暗时代，进入了当今物理学、天文学和现代科学领域取得突破性发

用于现实世界应用程序的机器学习不仅仅是设计花哨的网络和微调参数。事实上，您将花费大部分时间来策划一个好的数据集。让我们一起来完成这个过程的步骤：

自然语言可以采用文本或语音的形式，机器学习可用于以文本和语音的形式解决涉及人类自然语言的问题。这被称为自然语言处理，它已经有许多迷人的现实世界应用程序。非结构化文本，例如文章、新闻、评论或评论，是自然语言数据的常见来源。必须从非结构化数据中检索有用的信息。为了检索这些有用的数据，我们

一场强大的颠覆即将来临；也许，这是自 1964 年计算机化事务处理发明以来最强大的。预测事务处理即将颠覆过去 57 年的计算模式，并改变我们的生活、工作、购物和娱乐方式。为了使企业保持相关性和竞争力，他们不仅需要能够预测客户的行为和偏好，还需要依靠预测性交易来实现大部分业务交互的自动

BentoML 可以轻松地将经过训练的 ML 模型转移到生产环境中：打包使用任何 ML 框架训练的模型并复制它们以用于生产中的模型服务随处部署，用于在线 API 服务或离线批量服务具有自适应微批处理支持的高性能 API 模型服务器通过 Web

DoorDash 每天交付数百万个订单，为了支持我们的平台，我们需要解决“调度问题”：如何尽可能高效地通过 Dashers 将每个订单从商店送到客户手中。在这篇博文中，我们将讨论调度问题的细节，我们如何使用机器学习和优化来解决问题，以及我们如何通过模拟和实验不断改进我们的解决方案。

Google 的Kubeflow 1.3是最流行的 Kubernetes 开源机器学习平台的最新版本。它具有许多新功能和增强功能，使机器学习操作 (

让我们从一个例子开始：您正在尝试构建一个分类模型。 1 类：猫 2 类：狗不幸的是，您的数据非常不准确：有 950 张猫图片和 50 张狗图片。如果您的模型将每张图片都归类为猫，那么您的准确率将达到 95%。想一想：由于类别不平衡，愚蠢的模型将使您

机器学习项目的失败可能由多种因素造成，但两个常见的被忽视的错误做法是数据泄漏和数据处理不一致。这里有3种方法可以避免它们： 1. 做探索性数据分析时不要使用测试集。只使用训练集。通过不接触测试集，您可以避免数据泄漏。请记住，如果您将测试数据泄露给模型，它就不能很好地推广到新数