Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
数据科学教程
反对SQL与捍卫SQL的论战
三篇文章分别针对此进行了争论:1. Jamie Brandon首次发表了反对SQL:
算法是不是灵魂?举办算法大奖赛有用吗?
这是前Netflix 研究/工程总监对十年前Netflix推荐算法奖的再次声明,原因来自于“开放式算法竞赛有用且有价值吗”的
通俗易懂讲解贝叶斯论和频率论两者之间的区别?
贝叶斯统计推断和频率统计推断之间一直存在争论。频率论者在 20 世纪主导了统计实践。许多常见的机器学习算法(如线性回归和逻辑回归)使用频率论方法来执行统计推断。虽然贝叶斯在 20 世纪之前主导了统计实践,但近年来贝叶斯学派中的许多算法,如期望最大化、贝叶斯神经网络和马尔可夫链蒙特卡罗算法,在
企业客服沟通对话信息的开源大数据平台:airy
客服与客户之间沟通是每个企业的核心,每家公司都应该拥有自己的对话并以最佳方式利用他们的对话数据,同时考虑到客户的兴趣和隐私。Airy 是一个对话平台,主要为企业构建:大多数企业都有他们支持的各种对话应用程序和渠道(从用于客户服务的 Facebook Messenger 和 Insta
构建数据平台的快速工具指南 - Monte
下面我们分享“基本”数据平台的样子,并列出每个空间中的一些热门工具:数据摄取 与几乎所有现代数据平台的情况一样,需要将数据从一个系统摄取到另一个系统。随着数据基础设施变得越来越复杂,数据团队面临着从各种来源摄取结构化和非结构化数据的挑战性任务
数据科学中最痛苦的方程式:数据 + 假设 = 预测 - Kozyrkov
逻辑推理 = 数据 + 假设,(统计)数据并不能给你真相;在统计学中,你所知道的并不是你希望你知道的。以下是一些标准的误解: “如果我找到正确的方程,我就能知道未知数。” “如果我对我的数据进行足够的数学运算,我可以减少我的不确定性。” “统计可以将数
大数据、厚数据与富数据如何支持业务决策? - Dave
有关大数据通常观点是:给我一个聪明的数学家、技术工具和大量数据,我可以毫不费力地创造营业务意义。但是,这种一种危险:很多被认为有业务意义的假设前提都是不确定的(逻辑前提都是错的,第一性根本不存在),而且在大数据分析中经常将相关性与因果关系混淆的,这种大数据方法受到了各个领域专家的广泛批评。<
为什么机器学习模型会越来越糟? - Santiago
当完成了机器学习模型的构建并且部署了。不幸的是,工作并没有完成。可以说,您只走了一半,机器学习模型的性能会随着时间的推移而降低。机器学习模型的快速入门:x->y: x:输入数据 y:输出预测 ->:模型在X和y之间学习的关系。
构建机器学习的数据集指南 - haltakov
用于现实世界应用程序的机器学习不仅仅是设计花哨的网络和微调参数。事实上,您将花费大部分时间来策划一个好的数据集。让我们一起来完成这个过程的步骤:
事件是新数据 - DZone
牛津词典将“数据”定义为:“收集在一起的事实”。(注:世界是由事实组成的:#维特根斯坦 )如果我们改为使用应用程序架构师的专业语言,“数据”可以更准确地定义为:“折叠fold在一起的事件”。“折叠”表示按时间顺序合并特定实体的(状态改变)事件以计算最新的实体“状态”
四种数据分析的基本方法
每天都会产生和存储大量数据。这些数据来自各种形式,或者您每天、每次发布博客甚至在社交网络上发布时都会生成它们。但数据是什么?数据不是信息,它只是无形的字节流。信息是处理此类数据的结果。从原始数据中提取信息的过程称为数据分析。它是一个清理、转换和建模数据的过程,以发现对业务决策有用的信
使用Pandas进行数据清理过程的简单步骤 - sahilfruitwala
数据清理是删除、添加或修改数据以进行分析和其他机器学习任务的过程。如果需要数据清理,它总是在任何类型的分析或机器学习任务之前完成。Clive Humby 说:“数据是新的石油。” 但我们知道数据仍然需要细化。数据被认为是公司的主要资产之一。误导性或不准确的数据是有风险的,可能
6种方式处理机器学习中不平衡的数据集 - svpino
让我们从一个例子开始:您正在尝试构建一个分类模型。 1 类:猫 2 类:狗 不幸的是,您的数据非常不准确:有 950 张猫图片和 50 张狗图片。如果您的模型将每张图片都归类为猫,那么您的准确率将达到 95%。想一想:由于类别不平衡,愚蠢的模型将使您
数据泄露和数据处理不一致是两个机器学习容易被忽视的错误 - jeande_d
机器学习项目的失败可能由多种因素造成,但两个常见的被忽视的错误做法是数据泄漏和数据处理不一致。这里有3种方法可以避免它们: 1. 做探索性数据分析时不要使用测试集。只使用训练集。通过不接触测试集,您可以避免数据泄漏。请记住,如果您将测试数据泄露给模型,它就不能很好地推广到新数
什么是细分Segmentation? - KDnuggets
细分Segmentation是营销中最常用的词之一,但实际上指的是很多东西。 1. 最基本的是,它意味着对对象进行分类 。“对象”通常是人——顾客、购物者、一般消费者——但不一定。例如,我们可以按行业类型、原产国、营利性或非营利性、企业对企业 (B2B) 或企业对消费者 (B
Julia:比 Fortran 快,比 Numpy 干净 - matecdev
Julia是一种非常新的语言,除其他外,它旨在解决科学计算中所谓的“双语言问题”。也就是说,我们通常使用快速原型语言(如 Matlab 或 Python)来测试想法,但是当测试完成并且是进行一些严肃计算的时候,我们需要依赖不同的(编译的)编程语言。有许多工具可以简化转换,到目
2021 年最佳数据科学工具和软件 - datamation
数据科学改变了我们的世界。从大量结构化和非结构化数据中提取洞察力的能力已经彻底改变了许多领域——从营销和医学到农业和天文学。数据科学借鉴数学、统计学、计算机科学、信息科学等领域,利用数学公式和算法将海量的原始数据转化为有用的信息。 企业内部,它越来越多地与机器学习 (ML) 和其他人
Orchest是用于数据科学的基于浏览器的IDE
Orchest是一种新型的数据科学IDE,它开箱即用地集成了您最喜欢的数据科学工具,因此您不必这样做。该应用程序易于使用,可以在您的笔记本电脑以及大规模云集群上运行。特点: 可视地构造管道。 直接或按照类似cron的时间表运行管道的任何子集。 对数据科
上页
下页