简洁地可视化和总结或“压缩”大约 10,000 个单词的百科全书式哲学文章,仅包含一组 24 个最常用的非通用单词。
使用的主要工具是来自 Wolfram Function Repository 的KeywordsGraph,我专门为此类任务设计的。
这是一份关于如何使用集群网络(图形社区)来突出文本中的关键思想的指南。
能够突出显示更频繁地一起使用的想法。这也可以用于比较分析。
在这里,我使用了斯坦福哲学百科全书中关于让-保罗·萨特和阿尔贝·加缪的两篇文章的文本数据。两者都是存在主义基础的巨人,并且是异同语义分析的优秀研究。
在任何文本或演讲中,数据都有一个特殊的结构--不是一次性传递,而是随着时间的推移不断传递。
通常情况下,人们必须在某一特定时刻之前听完或读完所有的内容,才能完全理解和体会那一刻所说的内容。
KeywordsGraph将其转化为与时间无关的可视化,可以一目了然地掌握。
它还允许观察文本中的结构和关系,这些结构和关系在阅读或聆听时很难注意到,因为我们一直处于一个特定的移动时刻,而且由于记忆的局限性,大脑很难处理原始时间线格式的大量数据。
KeywordsGraph的算法将这种数据结构转化为一个加权图,将文本中经常使用的关键词连接起来,这些关键词是连续的邻居,从而将文本中的思想流和聚类可视化。
因为这些关键词和它们的聚类对于特定的文本来说是独一无二的,所以这种可视化和它背后的网络数据结构可以被认为是文本的指纹。
我的目的不是要简化或减少演讲内容,而是要通过一目了然的视图来突出和强调关键思想。
更有趣的是,把两篇在主题和思想上相当相似的文章,试图进行差异和相似性的比较。这就是考虑让-保罗-萨特和阿尔伯特-加缪的哲学的这种尝试。
数据样本:让-保罗·萨特和阿尔贝·加缪
让-保罗-萨特和阿尔贝-加缪是法国著名的哲学家和作家,他们的关系复杂而动荡,开始是亲密的友谊,但最终变成了激烈的争斗。
来自以下来源:
https://plato.stanford.edu/entries/sartre
https://plato.stanford.edu/entries/camus
详细点击标题