• 贝叶斯统计推断和频率统计推断之间一直存在争论。频率论者在 20 世纪主导了统计实践。许多常见的机器学习算法(如线性回归和逻辑回归)使用频率论方法来执行统计推断。虽然贝叶斯在 20 世纪之前主导了统计实践,但近年来贝叶斯学派中的许多算法,如期望最大化、贝叶斯神经网络和马尔可夫链蒙特卡罗算法,在 icon
  • 客服与客户之间沟通是每个企业的核心,每家公司都应该拥有自己的对话并以最佳方式利用他们的对话数据,同时考虑到客户的兴趣和隐私。Airy 是一个对话平台,主要为企业构建:大多数企业都有他们支持的各种对话应用程序和渠道(从用于客户服务的 Facebook Messenger 和 Insta icon
  • 下面我们分享“基本”数据平台的样子,并列出每个空间中的一些热门工具:数据摄取 与几乎所有现代数据平台的情况一样,需要将数据从一个系统摄取到另一个系统。随着数据基础设施变得越来越复杂,数据团队面临着从各种来源摄取结构化和非结构化数据的挑战性任务 icon
  • 逻辑推理 = 数据 + 假设,(统计)数据并不能给你真相;在统计学中,你所知道的并不是你希望你知道的。以下是一些标准的误解: “如果我找到正确的方程,我就能知道未知数。” “如果我对我的数据进行足够的数学运算,我可以减少我的不确定性。” “统计可以将数 icon
  • 有关大数据通常观点是:给我一个聪明的数学家、技术工具和大量数据,我可以毫不费力地创造营业务意义。但是,这种一种危险:很多被认为有业务意义的假设前提都是不确定的(逻辑前提都是错的,第一性根本不存在),而且在大数据分析中经常将相关性与因果关系混淆的,这种大数据方法受到了各个领域专家的广泛批评。< icon
  • 当完成了机器学习模型的构建并且部署了。不幸的是,工作并没有完成。可以说,您只走了一半,机器学习模型的性能会随着时间的推移而降低。机器学习模型的快速入门:x->y: x:输入数据 y:输出预测 ->:模型在X和y之间学习的关系。   icon
  • 用于现实世界应用程序的机器学习不仅仅是设计花哨的网络和微调参数。事实上,您将花费大部分时间来策划一个好的数据集。让我们一起来完成这个过程的步骤: icon
  • 牛津词典将“数据”定义为:“收集在一起的事实”。(注:世界是由事实组成的:#维特根斯坦   )如果我们改为使用应用程序架构师的专业语言,“数据”可以更准确地定义为:“折叠fold在一起的事件”。“折叠”表示按时间顺序合并特定实体的(状态改变)事件以计算最新的实体“状态” icon
  • 每天都会产生和存储大量数据。这些数据来自各种形式,或者您每天、每次发布博客甚至在社交网络上发布时都会生成它们。但数据是什么?数据不是信息,它只是无形的字节流。信息是处理此类数据的结果。从原始数据中提取信息的过程称为数据分析。它是一个清理、转换和建模数据的过程,以发现对业务决策有用的信 icon
  • 数据清理是删除、添加或修改数据以进行分析和其他机器学习任务的过程。如果需要数据清理,它总是在任何类型的分析或机器学习任务之前完成。Clive Humby 说:“数据是新的石油。” 但我们知道数据仍然需要细化。数据被认为是公司的主要资产之一。误导性或不准确的数据是有风险的,可能 icon
  • 让我们从一个例子开始:您正在尝试构建一个分类模型。 1 类:猫 2 类:狗 不幸的是,您的数据非常不准确:有 950 张猫图片和 50 张狗图片。如果您的模型将每张图片都归类为猫,那么您的准确率将达到 95%。想一想:由于类别不平衡,愚蠢的模型将使您 icon
  • 机器学习项目的失败可能由多种因素造成,但两个常见的被忽视的错误做法是数据泄漏和数据处理不一致。这里有3种方法可以避免它们: 1. 做探索性数据分析时不要使用测试集。只使用训练集。通过不接触测试集,您可以避免数据泄漏。请记住,如果您将测试数据泄露给模型,它就不能很好地推广到新数 icon
  • 细分Segmentation是营销中最常用的词之一,但实际上指的是很多东西。 1. 最基本的是,它意味着对对象进行分类 。“对象”通常是人——顾客、购物者、一般消费者——但不一定。例如,我们可以按行业类型、原产国、营利性或非营利性、企业对企业 (B2B) 或企业对消费者 (B icon
  • Julia是一种非常新的语言,除其他外,它旨在解决科学计算中所谓的“双语言问题”。也就是说,我们通常使用快速原型语言(如 Matlab 或 Python)来测试想法,但是当测试完成并且是进行一些严肃计算的时候,我们需要依赖不同的(编译的)编程语言。有许多工具可以简化转换,到目 icon
  • 数据科学改变了我们的世界。从大量结构化和非结构化数据中提取洞察力的能力已经彻底改变了许多领域——从营销和医学到农业和天文学。数据科学借鉴数学、统计学、计算机科学、信息科学等领域,利用数学公式和算法将海量的原始数据转化为有用的信息。 企业内部,它越来越多地与机器学习 (ML) 和其他人 icon
  • Orchest是一种新型的数据科学IDE,它开箱即用地集成了您最喜欢的数据科学工具,因此您不必这样做。该应用程序易于使用,可以在您的笔记本电脑以及大规模云集群上运行。特点: 可视地构造管道。 直接或按照类似cron的时间表运行管道的任何子集。 对数据科 icon