数据科学 https://www.jdon.com/tag-49075/ 数据科学 用知识图谱提取专业文献关键词 https://www.jdon.com/66578.html 简洁地可视化和总结或“压缩”大约 10,000 个单词的百科全书式哲学文章,仅包含一组 24 个最常用的非通用单词。 使用的主要工具是来自 Wolfram Function Repository 的 KeywordsGraph ,我专门为此类任务设计的。 这是一份关于如何使用集群网络(图形社区)来突出文本中的关键思想的指南。 能够突出显示更频繁地一起使用的想法。这也可以用于比较分析。 在这里,我使用了斯坦福哲学百科全书中关于让-保罗·萨特和阿尔贝·加缪的两篇文章的文本数据。两者都是存在主义基础的巨人,并且是异同语义分析的优秀研究。 在任何文本或演讲中,数据都有一个特殊的结构--不是一次.. DDD泛在语言UL 数据科学 Sat, 27 May 2023 11:18:00 GMT https://www.jdon.com/66578.html banq 2023-05-27T11:18:00Z MotherDuck:大数据已死 https://www.jdon.com/65986.html 十多年来,人们很难从他们的数据中获得可操作的洞察力,这一事实被归咎于其规模。诊断结果是 "你的数据对你那微不足道的系统来说太大了",而治疗方法是购买一些能够处理大规模的新的花哨的技术。当然,在大数据工作组购买了所有新的工具并从遗留系统迁移之后,人们发现他们仍然难以理解他们的数据。 他们还可能注意到,如果他们真的注意到了, 数据规模其实根本就不是问题所在 。 10 多年来,我一直是推动大数据发展的追随者之一。我是 Google BigQuery 的创始工程师,作为团队中唯一真正喜欢公开演讲的工程师,我必须前往世界各地参加会议,帮助解释我们将如何帮助人们抵御即将到来的数据爆炸。我曾经在台上直.. 大数据架构 数据中台工程 数据科学 数据分析 Fri, 14 Apr 2023 00:26:00 GMT https://www.jdon.com/65986.html banq 2023-04-14T00:26:00Z pandas 2.0 新变化 https://www.jdon.com/65838.html Pandas 2.0来了!这是自Pandas诞生以来最大的一次大修,而且已经酝酿了多年。 然而,你可能不会注意到太多的变化,你现有的Pandas代码很可能会像以前一样运行。 所有的主要变化都在引擎盖下。 这是因为Pandas已经脱离了它表示数据的方式,从numpy转向Apache Arrow。 Pandas最初是建立在numpy之上的,对于许多任务来说,它是一个足够的解决方案。然而,numpy有很多局限性,这些年来才变得越来越明显。Apache Arrow将极大地帮助解决这些痛点,并将加速许多Pandas任务。 它大大加快了csv文件的加载和保存,并使新版本的Pandas在这方面与Po.. 数据科学 数据中台工程 Python Thu, 06 Apr 2023 00:28:00 GMT https://www.jdon.com/65838.html banq 2023-04-06T00:28:00Z 揭密Tweepcred:Twitter推荐引擎背后的力量 https://www.jdon.com/65779.html 您已经在 Twitter 上看到一些人具有某种影响力,他们的推文以近乎神奇的效率获得点赞、转发和回复。但是你有没有想过这种影响力是什么? 今天,我们将深入 Tweepcred 的神秘世界,这是计算用户在 Twitter 上的声誉的幕后服务。您无需成为 Spark 或批处理方面的专家——我们将以一种友好、平易近人的方式对其进行分解,您可以毫不费力地消化。 什么是 Tweepcred? Tweepcred 是一种社交网络分析工具,可以根据推特用户与其他用户的互动来计算他们的影响力。将其视为您在平台上获得的声誉点数,Twitter 使用它来确定应该推荐关注谁或应该突出显示谁的内容。 T.. 数据科学 数据中台工程 推荐引擎 ApacheSpark大数据工具 Sat, 01 Apr 2023 23:39:00 GMT https://www.jdon.com/65779.html banq 2023-04-01T23:39:00Z BloombergGPT:金融领域的大语言模型 https://www.jdon.com/65761.html NLP 在金融技术领域的应用广泛而复杂,应用范围从情感分析和命名实体识别到问答。 大语言模型 (LLM) 已被证明对各种任务有效;但是,文献中没有报道过专门针对金融领域的LLM。在这项工作中,我们展示了 BloombergGPT,这是一个 500 亿参数的语言模型,它在广泛的金融数据上进行了训练。 我们基于 Bloomberg彭博社广泛的数据源构建了一个 3630 亿个令牌数据集,这可能是迄今为止最大的特定领​​域数据集,并增加了来自通用数据集的 3450 亿个令牌。 我们在标准 LLM 基准、开放金融基准和一套最准确地反映我们预期用途的内部基准上验证了 BloombergGPT。我们.. 数据科学 NLP自然语言处理 ChatGPT等OpenAI技术 数字化转型 Sat, 01 Apr 2023 01:29:00 GMT https://www.jdon.com/65761.html banq 2023-04-01T01:29:00Z