lucene全文搜索

     

JVector:一个纯Java嵌入式矢量搜索引擎

96 5K

JVector 是一个纯 Java 嵌入式矢量搜索引擎,由DataStax Astra DB和(即将推出)Apache Cassandra 使用。开源项目点击标题什么是JVector? 算法快。 JV.

什么是句子嵌入、交叉编码器和重新排名

81 18K

深入探讨嵌入并解释双编码器和交叉编码器之间的差异,然后,我们将深入研究检索和重新排名。什么是双编码器和交叉编码器?Sentence Transformers 支持两种类型的模型:双编码器和交叉编码器。.

类似Elasticsearch搜索引擎项目的比较

118 5K

搜索引擎是一种可以搜索已被全文索引的数据中的任何文本的软件。虽然有 Google 和 Bing 等公共搜索引擎,但我们在本博客中讨论的不是它们,而是允许您在自己的数据中搜索文本的软件。将此类搜索引擎软.

Java 中顺序搜索(线性搜索)

76 10K

顺序搜索,也称为线性搜索,是一种简单的搜索算法,用于查找列表或数组中的特定目标元素。搜索过程包括一一检查列表中的每个元素,直到找到所需的元素或到达列表末尾。下面是 Java 中顺序搜索的实现:publ.

Elasticsearch内部结构简介

89 3K

Elasticsearch 是(且不仅仅是)企业搜索的领先解决方案之一。因此,有必要了解它的内部运作方式,以便更好地利用其功能。让我们通过一个简短的旅程来了解 Elasticsearch 的内部工作原.

Manticore Search:可替代Elasticsearch的开源搜索项目

688 2K

Manticore Search 是一个易于使用的开源快速搜索数据库。Elasticsearch 的良好替代方案。它与其他解决方案的区别在于: 它速度非常快,因此比其他替代方案更具成本效益,例如 Ma.

Redis模块的高级使用方式

256 18K

Redis 模块是Redis的高级功能,允许我们实现特定的自定义数据类型。本质上,模块是一个动态库,可以在启动时或根据命令按需加载到 Redis 中 MODULE LOAD 。模块可以用多种语言编写,.

比Lucene快10倍的矢量搜索JVector 1.0发布

200

JVector 1.0正式发布。 向量搜索的并发、增量、纯Java实现,在大型数据集上比Lucene快10倍。JVector 是一个纯 Java 嵌入式矢量搜索引擎,为DataStax Astra提供.

Apache Lucene9.7今天发布:支持Java21并提高了性能

707

Apache Lucene9.7今天发布了。通过使用SIMD支持Java20和Java21,大大提高了性能,并允许并行执行kNN查询。Apache Lucene 是一个完全用 Java 编写的高性能、.

Apache Doris是Elasticsearch + Grafana Loki优点的综合

1205 6K

理想的日志处理系统应该支持: 高吞吐量实时数据摄取:它应该能够批量写入博客,并使它们立即可见。 低成本存储:它应该能够存储大量的日志而不需要花费太多的资源。 实时文本搜索:它应该能够快速搜索文本。 业.

MarginaliaSearch:用Java编写的无需数据中心的互联网搜索引擎

289

Marginalia是一个独立的互联网开源搜索引擎,它是在线 Marginalia Search的源码。该项目的目的是为 Internet 开发新的替代发现方法。它既是一项公共服务,又是一个实验性研讨.

谷歌与OpenAI的争论 - swyx

1227

2 个月前 OpenAI 推出 ChatGPT 后,多米诺骨牌继续倒下: “谷歌距离全面颠覆可能只有一两年的时间。”  “微软计划使用ChatGPT 为 Bing 提供支持,并计划在几个月内推出。” .

使用 Postgres 的全文搜索构建可扩展的事件驱动搜索架构

1259 11K

需求:搜索由三个可搜索字段、标题和描述(使用全文搜索)和文档 ID 组成的文档,能够查找包含文档 ID 的字符串。搜索应该在不超过 200 毫秒的时间内运行超过 100 万个文档。PostgreSQL.

如何使用Rust实现语义搜索引擎?

1472 13K

语义搜索引擎是一种推荐系统,它依靠词语的含义来提供更好的搜索结果。它与传统的全文搜索引擎不同,后者依靠关键词匹配来提供结果。语义搜索引擎允许你搜索概念,而不仅仅是关键词。它了解意义和不同概念之间的关系.

Discord使用ElasticSearch建立数十亿条消息的索引 -Sukhad

1269

Discord 有数百万用户每天发送数十亿条消息。现在,这些用户也想搜索这些消息。我们如何索引这些以使它们可以通过消息中的不同关键字进行搜索?让我们来了解一下:1. 简单的答案是 Discrd 使用 .

使用Hibernate Search构建分页全文搜索Spring Boot的开源项目

901

搜索是网络的支柱之一,全文搜索是每个网站都需要的必备功能之一。但是实现这样一个特性是很复杂的,很多熟练的工程师已经在这个话题上认真思考过。因此,我们不要重新发明轮子,而是使用久经考验的 Hiberna.

使用Trigram优化Postgres文本搜索 - Alex Klibisz

773

在这篇文章中,我们将实现和优化一个基于Postgres Trigrams的文本搜索系统。我们将从一些基本概念开始,然后基于 890 万条亚马逊评论的数据集定义一个测试环境,然后涵盖三种可能的优化。我们.

Tantivy与Quickwit:类似Lucene的Rust全文搜索引擎库

2991

Tantivy 是一个受 Apache Lucene 启发并用 Rust 编写的全文搜索引擎库。Tantivy是一个用 Rust 编写的全文搜索引擎库。它更接近Apache Lucene,而不是Ela.

将Lucene搜索查询转换为.NET的EF表达式

623

本教程成功地在 ASP.NET Core 6 中启动了一个简单的 API,并公开了一个搜索端点,该端点按照 Lucene 语言查询语法通过正文查询参数过滤人员表,将其转换为底层实体框架表达式. 希望这.

Jina:在云上构建神经网络搜索的更简单方法

1403

Jina可为任何类型的数据构建搜索系统,包括文本、图像、音频、视频等等。通过模块化设计和多层抽象,您可以利用高效的模式来按部分构建系统,或者将它们链接到流中以获得端到端的体验。这是GitHub 上Na.

tinysearch/tinysearch: 使用Rus和Wasm构建的静态网站的微型全文搜索引擎

1014

使用 Rust 和 Wasm 构建的静态网站的小型全文搜索引擎tinysearch ,tinysearch 是一个轻量级、快速、全文搜索引擎。它专为静态网站而设计。tinysearch 是用 Rust.

zinc:替代elasticsearch的轻量级Go语言搜索引擎

4169

Zinc 是一个进行全文索引的搜索引擎。它是弹性搜索的轻量级替代品,运行在不到 100 MB 的 RAM 中。它使用bluge作为底层索引库。与需要几十个旋钮才能理解和调整的 elasticsearc.

位图索引的工作原理 - Richard

2276 1 7K

位图索引用于各种数据技术以实现高效的查询处理。在高层次上,位图索引可以被认为是一组谓词在数据集上的物理具体化,它自然是列式的,特别适合多维布尔查询处理。  当有多个属性受查询约束时(例如在复合 whe.

如何使用SymSpell将模糊搜索速度提高五倍以上 - lnx

1495

这是对相当令人难以置信的 SymSpell 算法以及我们如何在 lnx 中实现它的一个相当普遍的看法。我在开发 lnx 时遇到的最酷的功能之一是一种称为 SymSpell 的算法:https://gi.

Facebook AI 相似性搜索 (Faiss)快速上手手册 - pinecone

1740

Facebook AI 相似性搜索 (Faiss) 是最流行的高效相似性搜索实现之一。Faiss 是一个由 Facebook AI 开发的库,可以实现高效的相似性搜索。因此,给定一组向量,我们可以使用.

T-Wand算法用不到 600 行代码击败 Lucene - yyhh

1232
Lucene 速度非常快,因为它使用了一种最先进的搜索算法WAND [1]。这是WAND 的工作原理。它作弊。好吧,任何足够先进的算法看起来都像是作弊。WAND也不例外。基本上,它跳过了大部分文档集合.

NLP 中不同词嵌入技术的比较 - KDnuggets

1326 3K

如果计算机可以开始理解莎士比亚,这不是令人难以置信吗?还是像 JK 罗琳那样写小说?这在几年前是不可想象的。自然语言处理(NLP) 和自然语言生成(NLG) 的最新进展大大提高了计算机更好地理解基于文.

MeiliSearch:用Rust语言编写的极简全文搜索引擎

5979 1 2K

MeiliSearch是一个快速、功能丰富的全文搜索引擎。它建立在LMDB键值存储之上,安装在 Ubuntu 或 MacOS 上时作为 35 MB 的二进制文件存在。它带有内置的客户端、服务器和 We.

励志故事:比Elasticsearch更快的即时开源搜索引擎typesense

2387 1 2K

这是作者Kishore Nallan每天上班前或下班后的副项目,每天写一些代码,没有最后期限,没有季度目标,没有里程碑。专注于一件事:每天出现并编写一些代码。有些功能需要一个小时才能实现,有些功能需要.

如何基于Redis Search、Node.js 和 Vue.js实现全局搜索?

1632 4K

全局搜索已在 Web 应用程序中无处不在。全局搜索的典型功能是: 做全文搜索和增产效果 提供过滤器以精确包含或排除 允许根据特定属性对结果进行排序 搜索可能会发生在 非结构化数据,如网络内容、电子邮件.