• 搜索是网络的支柱之一,全文搜索是每个网站都需要的必备功能之一。但是实现这样一个特性是很复杂的,很多熟练的工程师已经在这个话题上认真思考过。因此,我们不要重新发明轮子,而是使用久经考验的 Hibernate Search 库。 这个项目展示如何在 S
  • 语义搜索引擎是一种推荐系统,它依靠词语的含义来提供更好的搜索结果。它与传统的全文搜索引擎不同,后者依靠关键词匹配来提供结果。语义搜索引擎允许你搜索概念,而不仅仅是关键词。它了解意义和不同概念之间的关系,并能根据这些关系提供更相关的结果。 在
  • 理想的日志处理系统应该支持: 高吞吐量实时数据摄取:它应该能够批量写入博客,并使它们立即可见。 低成本存储:它应该能够存储大量的日志而不需要花费太多的资源。 实时文本搜索:它应该能够快速搜索文本。 业界常 icon
  • Discord 有数百万用户每天发送数十亿条消息。现在,这些用户也想搜索这些消息。我们如何索引这些以使它们可以通过消息中的不同关键字进行搜索?让我们来了解一下: 1. 简单的答案是 Discrd 使用 ElasticSearch,Elast icon
  • 需求:搜索由三个可搜索字段、标题和描述(使用全文搜索)和文档 ID 组成的文档,能够查找包含文档 ID 的字符串。搜索应该在不超过 200 毫秒的时间内运行超过 100 万个文档。 PostgreSQL 支持全文搜索。全文索引允许对 icon
  • 2 个月前 OpenAI 推出 ChatGPT 后,多米诺骨牌继续倒下: “谷歌距离全面颠覆可能只有一两年的时间。”  “微软计划使用ChatGPT 为 Bing 提供支持,并计划在几个月内推出。”  “微软将以290 亿美元的估值完成对OpenAI 的 10 icon
  • Manticore Search 是一个易于使用的开源快速搜索数据库。Elasticsearch 的良好替代方案。它与其他解决方案的区别在于: 它速度非常快,因此比其他替代方案更具成本效益,例如 Manticore: icon
  • Apache Lucene9.7今天发布了。通过使用SIMD支持Java20和Java21,大大提高了性能,并允许并行执行kNN查询。 Apache Lucene 是一个完全用 Java 编写的高性能、功能齐全的搜索引擎库。该技术几乎适用于任何需要 icon
  • Redis 模块是Redis的高级功能,允许我们实现特定的自定义数据类型。本质上,模块是一个动态库,可以在启动时或根据命令按需加载到 Redis 中 MODULE LOAD 。模块可以用多种语言编写,包括 C 和 Rust。 我们自己使用 Redi icon
  • Marginalia是一个独立的互联网开源搜索引擎,它是在线 Marginalia Search的源码。 该项目的目的 icon
  • 搜索引擎是一种可以搜索已被全文索引的数据中的任何文本的软件。虽然有 Google 和 Bing 等公共搜索引擎,但我们在本博客中讨论的不是它们,而是允许您在自己的数据中搜索文本的软件。将此类搜索引擎软件想象为 google 或 bing,但仅用于您自己的数据。 icon
  • JVector 1.0正式发布。 向量搜索的并发、增量、纯Java实现,在大型数据集上比Lucene快10倍。 JVector 是一个纯 Java 嵌入式矢量搜索引擎,为 icon
  • JVector 是一个纯 Java 嵌入式矢量搜索引擎,由DataStax Astra DB和(即将推出)Apache Ca icon
  • 深入探讨嵌入并解释双编码器和交叉编码器之间的差异,然后,我们将深入研究检索和重新排名。 什么是双编码器和交叉编码器?Sentence Transformers 支持两种类型的模型:双编码器和交叉编码器。 icon
  • Elasticsearch 是(且不仅仅是)企业搜索的领先解决方案之一。因此,有必要了解它的内部运作方式,以便更好地利用其功能。让我们通过一个简短的旅程来了解 Elasticsearch 的内部工作原理。 Lucene icon
  • 40 年来,BM25 一直是搜索引擎的标准。然而,它无法满足现代 RAG 应用的需要。 BM42 诞生:语义搜索与关键词搜索的结合 什么是BM25?BM25 是一种排名算 icon
  • 顺序搜索,也称为线性搜索,是一种简单的搜索算法,用于查找列表或数组中的特定目标元素。搜索过程包括一一检查列表中的每个元素,直到找到所需的元素或到达列表末尾。下面是 Java 中顺序搜索的实现: icon
  • 本文教你用Rust的oracle包操作Oracle db26ai,完成增删改查、建表建索引,并实现向量相似度搜索,全程无需Python。 用Rust一把梭向量搜索!Oracle数据库玩出花,关键不需要用Python icon