ElasticSearch全文搜索

     

七篇Meta等大科技公司工程博文

75 2K

1. Uber 如何使用集成缓存从在线存储中提供每秒超过 4000 万次的读取作者:多位作者 ⸱ Uber ⸱ 阅读时间 14 分钟 ⸱ 2 月 15 日 讨论Docstore的架构,这是一个构建在 .

OpenAI新AI搜索将颠覆谷歌等传统搜索引擎

65

OpenAI 似乎正准备通过其人工智能搜索竞争者直接挑战谷歌,尽管具体信息仍然有限。人工智能 (AI) 公司 OpenAI 已准备好再次给科技行业带来惊喜。有报道称,他们正在私下开发一款网络搜索产品,.

将Postgres转变为快速OLAP数据库

156 5K

pg_analytics 是一个扩展,可将任何 Postgres 数据库的本地分析性能提高 94 倍。安装 pg_analytics 后,Postgres 的速度比 Elasticsearch 快 8.

JVector:一个纯Java嵌入式矢量搜索引擎

97 5K

JVector 是一个纯 Java 嵌入式矢量搜索引擎,由DataStax Astra DB和(即将推出)Apache Cassandra 使用。开源项目点击标题什么是JVector? 算法快。 JV.

Postgres不适合用于全文搜索的几种场景

71 3K

与以搜索为中心的数据库相比,Postgres 全文搜索存在不足的九个领域的概述。什么是全文搜索?全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比,全文搜索即使在部分.

Apache Calcite 简介

123 10K

在本教程中,我们将了解Apache Calcite。它是一个功能强大的数据管理框架,可用于与数据访问有关的各种用例。它专注于从任何来源检索数据,而不是存储数据。此外,其查询优化功能可以实现更快、更高效.

近期大模型在搜索或查询方面的创新

121

基于AI的搜索/文档查找中发生了如此多的创新,大模型RAG领域在过去的2周发生4件大事:1、更好的检索ColBERT检索模型现在很容易使用! 它比其他人工智能方法更快地返回更好的结果。现在,它很容易用.

类似Elasticsearch搜索引擎项目的比较

118 5K

搜索引擎是一种可以搜索已被全文索引的数据中的任何文本的软件。虽然有 Google 和 Bing 等公共搜索引擎,但我们在本博客中讨论的不是它们,而是允许您在自己的数据中搜索文本的软件。将此类搜索引擎软.

Elasticsearch内部结构简介

89 3K

Elasticsearch 是(且不仅仅是)企业搜索的领先解决方案之一。因此,有必要了解它的内部运作方式,以便更好地利用其功能。让我们通过一个简短的旅程来了解 Elasticsearch 的内部工作原.

Manticore Search:可替代Elasticsearch的开源搜索项目

690 2K

Manticore Search 是一个易于使用的开源快速搜索数据库。Elasticsearch 的良好替代方案。它与其他解决方案的区别在于: 它速度非常快,因此比其他替代方案更具成本效益,例如 Ma.

Rust矢量数据库现已为 X (Twitter) 提供支持

77

Qdrant是一个矢量相似性搜索引擎和矢量数据库。它提供了一个生产就绪的服务,带有一个方便的 API 来存储、搜索和管理带有额外负载的点向量 Qdrant 是为扩展过滤支持而定制的。它对于各种神经网络.

比Lucene快10倍的矢量搜索JVector 1.0发布

200

JVector 1.0正式发布。 向量搜索的并发、增量、纯Java实现,在大型数据集上比Lucene快10倍。JVector 是一个纯 Java 嵌入式矢量搜索引擎,为DataStax Astra提供.

提高 opensearch-java 中的 JSON 解析性能

576 6K

作为一名开源爱好者,我相信协作的力量可以使开源项目更快、更高效。在这篇博文中,我将分享我的Linagora团队如何与 OpenSearch 社区合作,使用基准测试工具和火焰图识别并解决 OpenSea.

spring-boot-logging:记录Spring Boot HTTP请求/响应并与Elastic栈集成

426

创建该库是为了记录传入的 HTTP 请求和传出的 HTTP 响应,并将这些日志自动发送到 Logstash。spring-boot-logging是用于记录 Spring Boot 应用程序的 HTT.

Apache Doris是Elasticsearch + Grafana Loki优点的综合

1206 6K

理想的日志处理系统应该支持: 高吞吐量实时数据摄取:它应该能够批量写入博客,并使它们立即可见。 低成本存储:它应该能够存储大量的日志而不需要花费太多的资源。 实时文本搜索:它应该能够快速搜索文本。 业.

MarginaliaSearch:用Java编写的无需数据中心的互联网搜索引擎

289

Marginalia是一个独立的互联网开源搜索引擎,它是在线 Marginalia Search的源码。该项目的目的是为 Internet 开发新的替代发现方法。它既是一项公共服务,又是一个实验性研讨.

GitHub - a5huynh/spyglass: 个人搜索引擎

811

传统的网络搜索很糟糕,使用这个开源工具可建立个人搜索引擎,它可以使用一组简单的规则抓取和索引你想要的网站/文件.Spyglass 存在于您的设备上,通过一组基本规则对您想要的网站进行爬网和索引。压缩为.

Netflix可扩展的数据注释服务

789 4K

在Netflix,我们有数百个微型服务,每个都有自己的数据模型或实体。例如,我们有一个存储电影实体元数据的服务或一个存储图像元数据的服务。所有这些服务在以后都想对他们的对象或实体进行注释。我们的团队,.

是否有专门的欺诈分析工作? - Reddit

740 2K

如何使用关系数据库和统计模型来检测金融欺诈并保护普通人的银行账户?1、我的部分工作是使用规则和模型来检测潜在的交易欺诈和激励游戏,但也延伸到检测垃圾邮件、不当内容和虚假评论等方面。我的角色可能比你在大.

谷歌与OpenAI的争论 - swyx

1228

2 个月前 OpenAI 推出 ChatGPT 后,多米诺骨牌继续倒下: “谷歌距离全面颠覆可能只有一两年的时间。”  “微软计划使用ChatGPT 为 Bing 提供支持,并计划在几个月内推出。” .

模因搜索引擎findthatmeme.com是如何构建的?

913

任何在互联网上花过任何时间的人都很清楚模因梗的使用在网上话语中已经变得多么普遍了。在最新发生的事件中寻找新的模因梗,并与不同的朋友群体分享它们的幽默,是我长期以来喜欢的一种消遣方式。然而,大多数幽默模.

一切都使用 Postgres

937

如何降低复杂性并加快行动速度? 使用 Postgres 作为消息队列跳过锁定而不是 Kafka(如果你只需要一个消息队列)。 使用 Postgres时标Timescale作为数据仓库。 使用 Post.

10个技巧优化Elasticsearch查询性能

2391

关于如何减少 Elasticsearch 搜索延迟和优化搜索性能的 14 个技巧:size参数为 size 参数分配一个巨大的值会导致 Elasticsearch 计算大量的命中,从而导致严重的性能问.

使用 Postgres 的全文搜索构建可扩展的事件驱动搜索架构

1261 8K

需求:搜索由三个可搜索字段、标题和描述(使用全文搜索)和文档 ID 组成的文档,能够查找包含文档 ID 的字符串。搜索应该在不超过 200 毫秒的时间内运行超过 100 万个文档。PostgreSQL.

Discord使用ElasticSearch建立数十亿条消息的索引 -Sukhad

1272

Discord 有数百万用户每天发送数十亿条消息。现在,这些用户也想搜索这些消息。我们如何索引这些以使它们可以通过消息中的不同关键字进行搜索?让我们来了解一下:1. 简单的答案是 Discrd 使用 .

使用JSON输入/输出测试Logstash配置

1308 6K

Logstash是一个数据处理管道,允许您从各种来源收集数据,然后将其转换并发送到目的地。它最常用于将数据发送到Elasticsearch(一种分析和搜索引擎),然后可以使用Kibana进行查看。El.

使用Trigram优化Postgres文本搜索 - Alex Klibisz

773

在这篇文章中,我们将实现和优化一个基于Postgres Trigrams的文本搜索系统。我们将从一些基本概念开始,然后基于 890 万条亚马逊评论的数据集定义一个测试环境,然后涵盖三种可能的优化。我们.

Tantivy与Quickwit:类似Lucene的Rust全文搜索引擎库

2997

Tantivy 是一个受 Apache Lucene 启发并用 Rust 编写的全文搜索引擎库。Tantivy是一个用 Rust 编写的全文搜索引擎库。它更接近Apache Lucene,而不是Ela.

tinysearch/tinysearch: 使用Rus和Wasm构建的静态网站的微型全文搜索引擎

1014

使用 Rust 和 Wasm 构建的静态网站的小型全文搜索引擎tinysearch ,tinysearch 是一个轻量级、快速、全文搜索引擎。它专为静态网站而设计。tinysearch 是用 Rust.

zinc:替代elasticsearch的轻量级Go语言搜索引擎

4172

Zinc 是一个进行全文索引的搜索引擎。它是弹性搜索的轻量级替代品,运行在不到 100 MB 的 RAM 中。它使用bluge作为底层索引库。与需要几十个旋钮才能理解和调整的 elasticsearc.