数据科学领域的几个无代码分析工具介绍

21-11-22 banq

“数据分析”一词已成为 Python 和 R 等编程语言的同义词。虽然这些强大的语言对于使用最新最好的算法进行高级分析是必不可少的,但它们并不是开始分析复杂数据集所必需的!数据分析软件可以是开源的(橙色),也可以是与之相关的免费版本(RapidMiner)。

下面推荐几款替代商业软件的开源替代品:

 

RapidMiner 

RapidMiner 的独特之处在于其自动化机器学习功能。只需点击几下,各种算法就会运行并输出性能指标,您可以在其中比较结果并选择最佳模型。

RapidMiner 最强大的部分是学习模型工作原理和基本机制的速度。文档内置于软件中,因此您可以右键单击每个功能/算法并获得每个功能/算法的描述。每个描述都包含一个概要、整个算法的简要描述、每个超参数的描述以及如何使用它的教程。

RapidMiner 还集成了“群体智慧”功能,其中提供有关超参数调整和小部件创建的统计数据。例如,您是否要确定随机森林的树数量?好吧,RapidMiner 会说明诸如“50% 选择了 100 到 149 之间的值”之类的内容,以及显示百分比或 RapidMiner 用户选择了什么的条形图。这简化了学习过程,以了解专业人士的选择。

 

Orange

Orange 可能是这个列表中视觉效果最好的软件,并且拥有一些最好的数据可视化。它还具有完全免费的开源软件的最多功能。这意味着您可以将学到的知识带入企业界,因为它对每个人都是免费和开源的!有趣的是,该软件在 Python 上运行,所以很多可视化应该很熟悉。该软件的创建者是生物统计学家,因此软件中包含更多科学软件包,例如生物统计学和光谱学。Orange 也使用类似于 RapidMiner 的小部件,可以在 Anaconda 环境下下载或作为独立软件下载。

 

JASP

JASP(Jeffreys's Amazing Statistics Program)主要用于社会科学中的传统统计学,但也具有机器学习功能。它更像是 SPSS 的替代品,用户界面看起来与它非常相似。JASP 的有趣之处在于 R 语言在底层工作,因此数据可视化看起来应该与它相似。这是学习传统统计的好方法,因为您可以加载基于某些统计技术的工作流,其中将下载已进行的分析以及对进行某些分析的原因的解释。软件文档也内置在软件中,因此您可以轻松了解统计技术以及如何以正确的方式使用它们以及已加载的示例数据集。学术论文和书籍也在每种统计技术下被引用以获取更多资源;还列出了每种技术的 R 包。在 JASP 中,可以进行 t 检验、方差分析、回归、因子分析、贝叶斯统计、元分析、网络分析、结构方程建模等经典统计技术以及机器学习。

 

Voyant Tools

Voyant Tools 专门从事与文本数据相关的语料库分析。要以最少的努力开始,您可以从莎士比亚戏剧中预加载语料库数据,并准备好数据集进行分析。该软件具有大量功能,与其他软件相比,它的独特之处在于它采用仪表板的格式,您可以在其中使用另一种形式的分析更改每个“磁贴”。大多数分析技术都包含将文本数据可视化的独特方法。诸如主题聚类之类的统计技术也是可能的。

 

Dataminer

这个与其他的有点不同,因为它涉及获取数据而不是分析数据。网页抓取是一种从网页获取数据的流行方式,因为与使用二手数据相比,可以更好地控制数据的收集方式。有很多免费的网络抓取服务,但我最喜欢的是 DataMiner。使用免费版本,您每月最多可以抓取 500 页(尽管某些网站如 Glassdoor 受到限制,除非您支付最低月费)。但是,它非常直观,并带有实时客户支持,可为您的网络抓取项目提供帮助。该软件通过点击屏幕的某些部分来工作,在这些部分将感知 html 代码。然后,软件会检测网站上的相似区域,并将每个实例收集为一行,并将它们全部放在一列中。

 

还有其他很棒的分析工具没有提到,例如 KNIME、Weka、QGIS 和 Jamovi.

猜你喜欢