• “基于规则的系统”通常是作为ML项目的良好起点。  数据科学的重点是提出问题数据科学家的工作是通过统计工具回答问题。有时一些答案可以模型的形式表现出来,但这不是必需的。数据科学家首先关注的是问题而不是答案。这要求他们构建一个框
  • IBM Cognos Analytics("大蓝 ")和微软Power BI是两个顶级商业智能(BI)和数据分析软件。这两个应用程序都有很大的需求,因为企业寻求利用庞大的数据库--每小时创造的数据越来越多。 无论是来自非结构化数据、社交媒体、关系型 icon
  • 数据分析是检查数据以进行决策的过程;属于数据科学下的一个类别powerBi、Tableau、excel、SQL、python 都是获取数据分析结果的工具,是数据分析的工具。 PowerBI、Tableau、Excel 是用于分析/可视化带有图表和图形的数据集的工具。 icon
  • 对于那些实际上具备这两个角色所需技能的人,是什么让您决定成为数据分析师而不是数据科学家? 我放弃了成为数据科学家的职业梦想。现在,我使用 SQL 后端构建 .NET 报告应用程序。 我们所说的数据科学在实践中根本不是科学:他 icon
  • 我不知道这是否是一个合适的地方,但我希望也许我可以拯救一些人,使其不至于犯我同样的错误。 我有一个小小的背景,我有一个美术学位,大约7年前开始在企业界工作,是一名设计师。我的部门正在裁员,为了避免被解雇,我最终在2020年搬到了公司内部的一个死胡同 icon
  • BI软件是数字化转型的基础,商业智能(BI)软件工具能让公司分析事件、趋势和市场变化以获得竞争优势。 这些BI工具收集、管理和解释堆积如山的结构化和非结构化数据。它们构建模型,通过报告、图表、图形和其他数据表示方法提供答案和见解。 icon
  • 收集了 Tik Tok面试题清单,似乎他们做的是leetcode/hackerrank中等难度的问题: - TwoSum (hackerrank) - 描述偏差和变异之间的区别 - 解释偏差/变异的权衡 - 描述正则化 - 你如何处理不平衡的数 icon
  • 如果不对数据进行分组,则会在您不注意时,根据数据得出的结论可能会随时逆转,这被称为#辛普森悖论,它在理论上和实践中都对数据分析造成了严重破坏。让我们看一个现实生活中的例子。假设我们用 A 和 B 治疗肾结石。在 350 名患者中,A 对 273 例有效,B 在 289 例中有效。(< icon
  • 电子邮件、社交媒体帖子、聊天、网站和文章的形式生成越来越多的文本。所有这些文本文档都是丰富的信息来源。但由于文本的非结构化性质,理解和分析文本既困难又耗时。因此,大多数公司无法利用这一宝贵的信息来源。这就是文本分类等自然语言处理 (NLP) 方法的用武之地。 文本分类,也称为文本分类 icon
  • James Currier是 NFX 的普通合伙人,这是一家总部位于旧金山的种子期风险投资公司。很多早期创始人问我们:哪些指标对我的创业公司真正重要?在投资了数百家公司并自己建立了 10 多家公司之后,我们总是回到技术初创公司的 5 个核心指 icon
  • BI是企业的未来;ML是BI未来!现代ML与BI工具一起帮助公司利用大数据发挥潜力。借助 ML,BI 平台可以执行重要分析并适应不同的数据集。 BI商业智能历史第一次记录到“商业智能”是在 1865 icon
  • 我们的感官感知到的一切都是数据,尽管它存储在我们颅内潮湿的东西中还有一些不足之处。把它写下来更可靠一点,尤其是当我们在电脑上写下来的时候。当这些笔记组织良好时,我们称它们为数据。 人类的记忆是一个漏桶:当我们记录数据时,我们会对我们丰富感知的现实产生不忠实的破坏,但之后我们可 icon
  • 这里提供您开始下一个数据科学项目所需的一切,包括数据集链接、教程以及如何最终将它们变成您自己的想法。 1.构建音乐推荐引擎百万歌曲数据集 icon
  • 数据分析师查找事实并为您提供灵感,同时试图在此过程中尽可能少地浪费自己的时间(以及您的时间!)。为了获得最佳的灵感回报,他们必须掌握许多不同形式的速度,包括: 获取有希望且相关的数据的速度。(领域知识。) 准备好数据以进行操作的速度。(软件技能。) 汇总数据的 icon
  • 通过机器学习得到的结论是否需要引入领域专家意见?如果是,会产生两个手表时间不一致,到底听谁的问题;如果不是,机器学习也有自己的偏见,例如对黑白图片进行上色后,肯定无法原始的鲜艳颜色。讨论问题如下: 你认为在机器学习过程中是否应该更多地咨询专家意见?如果有,在哪里?(也 icon
  • 在 Twitter,我们实时处理大约 4000 亿个事件并每天生成 PB 级数据。Twitter 的各个团队可以通过不同的方式利用这些数据为每个人构建更好的 Twitter。 从广义上看,我们可以将一个全面而强大的大数据平台的基础设施和工具分为三类——数据处理、数据存储和数据消费。在 icon
  • 问题:根据基础理论/数据分布,何时使用决策树而不是 SVM 或 KNN 更好? 答案:1. xgboost在结构化数据和监督学习问题上很难被击败。相对特征规模不是问题,类不平衡不是问题,它可以处理空数据,而且由于决策树的性质,它在非 icon