• 模型是数据科学的核心输出,它们具有改变公司、行业和社会的巨大力量。每个机器学习或人工智能应用程序的核心是使用数据、算法和代码构建的 ML/AI 模型。尽管模型看起来像软件并涉及数据,但模型具有不同的输入材料、不同的开发过程和不同的行为。创建模型的过程称为建模。 
  • 获得腾讯投资的Dream11平台可以让用户创建由真实玩家组成的虚拟团队,并允许他们根据实际游戏中玩家的数据表现来组织比赛。获奖者将获得积分奖励,每场比赛都有参赛费。该平台提供梦幻板球、足球、卡巴迪和NBA的比赛:对于 1 亿 Dream11 用户来说,在我们的平台上玩梦幻体育的刺激和
  • 多维思考是超越二维思考的非线性概率思考模型,多维分析三步过程: 步骤 1. 确定关键维度, 步骤 2. 构建多维模型, 以及步骤 3. 分析模型以形成合理准确的结论。 步骤1中:确定关键维度不是二分法:黑与白、好与坏、阴与阳,例如,在决定是否投资一家 icon
  • 这篇文章分享收入最高的前 5 名编程工作。如果您正在寻找工作机会步,那么它对您来说是有用的,查看收入最高的编程工作: 数据科学家数据科学家日复一日地提出要求,因此它是薪水最高的工作之一。他们收集复杂的数据以帮助组织更好地运行。如今,这 icon
  • 三篇文章分别针对此进行了争论:1. Jamie Brandon首次发表了反对SQL: icon
  • 有关大数据通常观点是:给我一个聪明的数学家、技术工具和大量数据,我可以毫不费力地创造营业务意义。但是,这种一种危险:很多被认为有业务意义的假设前提都是不确定的(逻辑前提都是错的,第一性根本不存在),而且在大数据分析中经常将相关性与因果关系混淆的,这种大数据方法受到了各个领域专家的广泛批评。< icon
  • 统计学是机器学习的四大支柱之一,另外三个是线性代数、微积分和概率。要在机器学习或数据科学方面表现出色,你应该掌握的一件事是统计学。在这里,我用例子写了常用术语。统计分为两部分,分别是:描述性统计:探索数据(尚无观点)。了解我们拥有什么类型的数据,我们拥有多少样 icon
  • 每天都会产生和存储大量数据。这些数据来自各种形式,或者您每天、每次发布博客甚至在社交网络上发布时都会生成它们。但数据是什么?数据不是信息,它只是无形的字节流。信息是处理此类数据的结果。从原始数据中提取信息的过程称为数据分析。它是一个清理、转换和建模数据的过程,以发现对业务决策有用的信 icon
  • 下面我们分享“基本”数据平台的样子,并列出每个空间中的一些热门工具:数据摄取 与几乎所有现代数据平台的情况一样,需要将数据从一个系统摄取到另一个系统。随着数据基础设施变得越来越复杂,数据团队面临着从各种来源摄取结构化和非结构化数据的挑战性任务 icon
  • 这篇博文将帮助读者了解单体数据架构、与单体数据架构相关的挑战,以及分布式数据网格如何帮助组织将其分析数据转换为产品并构建高度可扩展、弹性和数据驱动的应用程序。目标受众是有兴趣了解更多关于单体数据架构和分布式数据网格的软件工程师、数据工程师、数据科学家、MLOps 工程师、软件开发人员和数据库 icon
  • DoorDash 每天交付数百万个订单,为了支持我们的平台,我们需要解决“调度问题”:如何尽可能高效地通过 Dashers 将每个订单从商店送到客户手中。在这篇博文中,我们将讨论调度问题的细节,我们如何使用机器学习和优化来解决问题,以及我们如何通过模拟和实验不断改进我们的解决方案。  icon
  • 真正的挑战不是是否做对了,而是知道自己走错到什么程度了。我深入地探索了理性的领域:事实证明,这里有一场日益壮大的理性运动,有着自己的精神、思想风格和知识体系,大量来自心理学和经济学。和 Greg 一样,我阅读了一系列理性博客——Marginal Revolution、Farnam S icon
  • 用于现实世界应用程序的机器学习不仅仅是设计花哨的网络和微调参数。事实上,您将花费大部分时间来策划一个好的数据集。让我们一起来完成这个过程的步骤: icon
  • 让我们从一个例子开始:您正在尝试构建一个分类模型。 1 类:猫 2 类:狗 不幸的是,您的数据非常不准确:有 950 张猫图片和 50 张狗图片。如果您的模型将每张图片都归类为猫,那么您的准确率将达到 95%。想一想:由于类别不平衡,愚蠢的模型将使您 icon
  • Apple 的机器学习研究团队开发了一种名为Trinity的无代码人工智能 (AI) 平台。该 AI 旨在使机器学习研究人员和非技术地理空间领域专家 icon
  • 数据清理是删除、添加或修改数据以进行分析和其他机器学习任务的过程。如果需要数据清理,它总是在任何类型的分析或机器学习任务之前完成。Clive Humby 说:“数据是新的石油。” 但我们知道数据仍然需要细化。数据被认为是公司的主要资产之一。误导性或不准确的数据是有风险的,可能 icon
  • 牛津词典将“数据”定义为:“收集在一起的事实”。(注:世界是由事实组成的:#维特根斯坦   )如果我们改为使用应用程序架构师的专业语言,“数据”可以更准确地定义为:“折叠fold在一起的事件”。“折叠”表示按时间顺序合并特定实体的(状态改变)事件以计算最新的实体“状态” icon
  • Verinovum 总部位于俄克拉荷马州塔尔萨,提供干净、完整和准确的临床数据,使医疗保健支付者、提供者和合作伙伴组织能够改善业务和患者结果。与电子健康记录 (EHR) 系统相关的界面和操作流程可能不同,从而产生大量数据变化。许多医院系统使用自己的代码系统,因此我们需要使用标准化规则 icon