信息检索的几种方法

信息检索 (IR) 是针对给定问题或查询从可用资源集合中获取相关资源的过程。查询基本上是一组用于在任何平台上搜索资源的关键字。您向 IR 系统提出查询，您将获得一个排名匹配的资源列表作为搜索结果。

我们有多种方法可以解决这个问题。下面列出了一些方法：

直接匹配：在输入查询和文档标题、描述或内容之间执行直接文本匹配。这是最不有效的方法，因为用户不太可能搜索文档属性中存在的确切查询。
正则表达式方法：在这种方法中，我们使用正则表达式来匹配输入查询和文档属性。它比直接匹配稍微好一点，因为它可以匹配更多的文档。设计能够满足所有可能的用户查询变体的正则表达式是非常困难的。
模糊匹配方法：有几种算法可用于模糊匹配，如令牌排序比、令牌集比和部分比。这些算法根据匹配算法返回两个字符串之间的相似度分数，可用于比较输入查询和文档属性。
基于距离的方法：汉明距离和 Levenshtein 距离是基于距离的技术，它们计算将一个字符串转换为另一个字符串所需的插入、替换和删除的次数
TF-IDF 向量相似性：在这种方法中，查询字符串和文档都表示为向量。向量的每个维度代表词汇表中的一个术语（所有文档和查询中的唯一术语列表），值可以是 1 或 0，表示查询/文档中是否存在该词，它可以是该词的频率在查询或文档中，也可以是 TF/IDF 分数（词频 - 逆文档频率）。一旦查询和文档都表示为向量，我们就可以使用余弦相似度来计算两者之间的相似度得分。
嵌入向量相似性：在这种方法中，查询和文档都表示为固定长度的密集向量，这些向量是在模型训练期间学习的，或者可以预加载预训练的词向量，如使用 skip-gram 模型学习的谷歌词向量。一旦表示为向量余弦相似度，就可以用来计算相似度得分。

更多点击标题

信息检索的几种方法

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道