Document transformers | 🦜️🔗 LangChain 中文文档

📄️ AI21SemanticTextSplitter

本示例介绍了如何在 LangChain 中使用 AI21SemanticTextSplitter。

📄️ Beautiful Soup

Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 包（包括处理格式错误的标记，即未闭合的标签，因此得名标签汤）。它为解析的页面创建一个解析树，可以用于从 HTML 中提取数据，这对于网络爬虫非常有用。

本笔记本展示了如何在检索器中实现重排名器，使用您自己的来自 Hugging Face cross encoder models 的 cross encoder 或实现 cross encoder 功能的 Hugging Face 模型（示例：BAAI/bge-reranker-base）。SagemakerEndpointCrossEncoder 使您能够使用这些在 Sagemaker 上加载的 HuggingFace 模型。

📄️ DashScope Reranker

本笔记本展示了如何使用 DashScope Reranker 进行文档压缩和检索。DashScope 是阿里云的生成式 AI 服务。

📄️ Doctran: 提取属性

我们可以使用 Doctran 库提取文档的有用特征，该库使用 OpenAI 的函数调用功能来提取特定的元数据。

📄️ Doctran：审问文档

在向量存储知识库中使用的文档通常以叙述或对话的格式存储。然而，大多数用户查询是以问题的形式出现。如果我们在向量化之前将文档转换为问答格式，我们可以增加检索相关文档的可能性，并减少检索不相关文档的可能性。

📄️ Doctran: 语言翻译

通过嵌入比较文档的好处在于可以跨多种语言进行工作。“Harrison says hello”和“Harrison dice hola”在向量空间中将占据相似的位置，因为它们在语义上具有相同的含义。

📄️ Google Cloud Vertex AI Reranker

Vertex Search Ranking API 是 Vertex AI Agent Builder 中的独立 API 之一。它接受一组文档，并根据文档与查询的相关性对这些文档进行重新排序。与仅关注文档与查询语义相似性的嵌入不同，排名 API 可以为文档回答特定查询的效果提供精确的评分。排名 API 可用于在检索初始候选文档后提高搜索结果的质量。