Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
数据科学教程
用决策树解决多重共线性问题
多重共线性是数据科学中的一个常见问题,影响各种类型的模型,包括决策树。本文探讨了什么是多重共线性、为什么它对决策树来说是个问题,以及如何解决它。 什么是多重共线性?多重共线性是统计分析中的一个问题,其中回归模型中的
什么是数据准备?
原始数据可能包含也可能不包含错误和不一致。因此,得出可行的见解并不简单。我们必须准备数据,以将我们从不完整、不准确和非结构化数据的陷阱中拯救出来。在本文中,我们将了解数据准备、过程以及在此过程中面临的挑战。 什么是数据准备?数据准备是为后处理和分析
2024年数据中台工程十大趋势
在当今世界,创新和决策需要实时数据管道和实时数据处理,对数据工程领域的重视程度日益增加。数据工程提供了许多工具和方法,持续为公司提供有关如何克服所面临挑战的见解。 什么是数
机器学习中的 CatBoost
一种名为 CatBoost 的灵活有效的技术可用于快速发展的机器学习领域,在该领域,创新是标准,数据是一切进步的源泉。这种方法的名字很有趣,是“Categorical Boosting”的变体,它彻底改变了我们处理数据科学问题的方式。CatBoost 是一个出色的解决方案,由俄罗斯全球 IT 企业
Observable:Markdown中可嵌入JavaScript的Notebook
Observable 2.0是一个开源静态站点生成器,用于构建快速、美观的数据应用程序、仪表板和报告。
使用 SVM 和决策树进行集成学习
集成学习是一种机器学习技术,它结合了多个单独的模型来提高预测性能。集成学习中使用的两种流行算法是支持向量机 (SVM) 和决策树。 什么是集成学习?
本周Github上数据科学Python有趣项目
Github上数据科学有趣的项目、工具和库 openllmetry
Word2vec中的连续词袋 (CBOW)
连续词袋(CBOW)模型是一种用于自然语言处理的神经网络模型。它可用于多种任务,例如语言翻译和文本分类。它用于根据周围的单词来预测单词。我们可以使用不同的优化算法(例如随机梯度下降)在大型数据集上训练该模型。CBOW 模型在训练后给出数值向量,称为词嵌入。词嵌入用于将词表示为数值向量。
如何成为一名量化分析师(宽客)?
要点: 量化金融工作结合了数学和工程技能 金融领域的量化分析师寻找基础资产之间的数学关系,或根据这些资产创建衍生品 金融领域的量化分析师也(越来越多地)在风险等领域工作 当您与交易者或投资组合经理的损益密切相关时,您在量化金融中赚到的钱最多。
贝叶斯回归简介
传统回归分析和贝叶斯概率论结合在称为贝叶斯回归的统计建模技术中。考虑有关模型定义特征的先验知识或假设。当处理稀疏或嘈杂的数据或当您希望对模型参数进行概率声明时,贝叶斯回归特别有用。 与贝叶斯回归相关的主要要素和思想如下: 先验分布:使用贝叶
大模型对AI研究有害?
在 GPT4 之后,大模型LLM 的性能和设计改进进展相对较少:使其变得更好的主要方法仍然只是将其做大,而且所有替代transformer的架构都被证明是不合格的、低劣的,它们将人们的注意力(和投资)从其他可能更具影响力的技术上转移开来。 再加上大量对基本
使用PyTorch演示实现神经网络过程
借助著名的开源PyTorch 框架,可以使用Python创建和训练神经网络。本教程将教您如何使用 PyTorch 创建基本神经网络并对 MNIST 数据集中的手写数字进行分类。 现代人工智能依赖于神经网络,神经网络赋予机器类似于人类的学习和判断能力。回归、
机器学习中的元学习
元学习的分支,也称为学习学习,被定义为从不同算法中学习的学习算法。其主要目的是在其他算法的帮助下增强算法的性能。这种方法提供了解决深度学习的几个传统问题的机会,例如数据和处理瓶颈以及泛化。 元学习还可以指由机器学习项目的专家进行的模型选择和算法调整的手动过
数据分析与机器学习
数据分析和机器学习是从大量信息中提取意义的重要方法。尽管它们有共同点,但这些方法也具有本质区别。 什么是数据分析数据分析领域需要探索原始数据以揭示潜在的模式、联系和发展。它涵盖了广泛的技术,包括描述性、诊断性、预测
贝叶斯深度学习简介
在本教程中,我们将学习贝叶斯深度学习的简介。神经网络的概率可以通过使用贝叶斯接口来检查。我们可以通过对标准神经网络工具的简单修改来近似这个概念问题。 贝叶斯定理是数据科学的一部分。它还包括以下学科:计算机科学、统计学和概率。该定理用于根据可用的重要数据计算
PySpark DataFrame教程与演示
PySpark DataFrame 是 PySpark 库中的基本抽象,专为分配的记录处理和操作而设计。它是 Apache Spark 生态系统的重要组成部分,提供了一种强大且绿色的方式来大规模处理结构化信息。 PySpark DataFrame 建立在
使用NumPy演示实现神经网络过程
在不断发展的人工智能(模拟智能)领域,有一个想法经久不衰,并被证明是当今机器学习的基础:人工神经网络(ANN)。这些计算模型在人类思维不可预测的神经元网络的推动下,在从图像识别到自然语言处理的任务中表现出了惊人的能力。在本文中,我们将继续揭开人工神经网络内部功能的神秘面纱,并重点讨论为什么从头开始构
Scikit-learn可扩展学习简介
随着机器学习模型变得越来越复杂和数据集变得越来越大,可扩展性成为从业者和研究人员的一个重要关注点。虽然 Python 的 scikit-learn 库提供了广泛的机器学习算法,但其有效处理大型数据集的可扩展性一直是人们感兴趣的话题。在这篇博文中,我们将探索使用 scikit-learn 实现可扩展学
上页
下页
关闭