河南单位网站建设龙泉做网站哪家好-晋城市网站建设公司-Seo优化

河南单位网站建设,龙泉做网站哪家好,代码网页制作,最近几天的重大新闻事件之前我们深入学习了 GraphRAG 索引构建的完整流程#xff0c;从文档加载、文本分片#xff0c;到实体关系提取、社区检测#xff0c;最终生成了包括实体表、关系表、社区报告等在内的结构化输出文件。这些文件构成了 GraphRAG 的知识库基础#xff0c;为查询阶段提供了丰富…之前我们深入学习了 GraphRAG 索引构建的完整流程从文档加载、文本分片到实体关系提取、社区检测最终生成了包括实体表、关系表、社区报告等在内的结构化输出文件。这些文件构成了 GraphRAG 的知识库基础为查询阶段提供了丰富的数据源。现在让我们转入查询阶段的学习探索 GraphRAG 如何基于这些数据实现智能问答。在之前的入门篇中我们已经体验了通过query命令来查询并通过--method参数指定搜索策略$ uv run poe query \ --root ./ragtest \ --method global \ --query What are the top themes in this story?GraphRAG 提供了四种不同的搜索策略按照复杂程度递增的顺序它们分别是基础搜索Basic Search、本地搜索Local Search、全局搜索Global Search和漂移搜索DRIFT Search。本文将由浅入深地剖析这四种搜索策略的工作原理和使用场景。基础搜索Basic Search基础搜索是 GraphRAG 中最简单的查询方式本质上是传统向量 RAG 的实现。它主要用于与其他搜索策略进行对比帮助用户了解 GraphRAG 相对于传统方法的优势。基础搜索的核心思想非常直接对用户查询进行向量化然后在文本单元的向量数据库中进行相似性搜索找到最相关的前 K 个文本片段最后使用这些片段作为上下文连同原始问题一起提交给大语言模型生成最终答案。基础搜索适用于简单的事实性问题特别是答案可以直接从单个或少数几个文档片段中获得的情况比如什么是机器学习Python 中如何定义函数苹果公司的总部在哪里由于基础搜索仅依赖向量相似性它无法处理需要多步推理或全局理解的复杂问题。这正是 GraphRAG 引入图结构和社区检测的动机。本地搜索Local Search本地搜索或者叫局部搜索是 GraphRAG 的核心创新之一它利用知识图谱的实体关系结构来增强传统 RAG 的检索能力。相比基础搜索本地搜索能够理解查询中的实体并利用这些实体在知识图谱中的连接关系来查找更丰富、更相关的上下文信息。本地搜索的流程分为三个主要阶段实体识别、上下文扩展和答案生成。这个过程的详细步骤如下实体识别阶段对用户查询进行向量化在实体描述向量数据库中进行相似性搜索获取语义相关的候选实体集合上下文扩展阶段文本单元扩展根据实体和文本单元映射关系找到包含这些实体的原始文本片段社区报告扩展根据实体和社区映射关系获取相关的社区摘要报告实体关系扩展使用实体名称和描述等信息构建实体上下文然后再依次查找与实体相连的关系构建关系上下文协变量扩展如果配置了协变量提取还会包含相关的声明信息排序过滤阶段排序对每类候选数据进行重要性排序比如对于文本单元来说关系数量更多优先级更高对于社区来说包含的选中实体数量更多的优先级更高过滤根据 token 预算进行过滤确保上下文适合大语言模型的输入窗口答案生成阶段将过滤后的多源信息整合成结构化上下文调用大模型生成最终答案本地搜索的过程就像是一次从图谱中的特定节点出发向外探索和收集信息的侦察任务它的关键优势在于多源信息融合能力通过文本单元保留原始文档的详细信息通过知识图谱揭示实体间的复杂关系通过社区报告提供结构化的主题总结。它特别适合需要理解特定实体及其关系的问题比如洋甘菊有什么治疗功效需要理解洋甘菊这个实体的属性苹果公司和微软公司有什么合作关系需要理解两个实体间的关系机器学习领域的主要算法有哪些需要找到与机器学习相关的算法实体全局搜索Global Search全局搜索解决了传统 RAG 的一个根本性问题无法处理需要理解整个数据集的查询。当用户问数据中的主要主题是什么或最重要的趋势有哪些这种需要全局视角和高度概括性的问题时传统的向量检索往往无法给出满意的答案因为这类问题需要对整个数据集进行宏观理解和总结。全局搜索采用了Map-Reduce 架构分为两个核心阶段首先是 Map 阶段收集指定层级的社区报告并行处理报告收集从指定层级的社区层次结构中收集所有的社区报告如果开启了动态社区选择则使用大模型根据用户问题对社区报告进行打分选择得分大于阈值的社区报告分批处理将社区报告按照 token 预算随机分成多个批次并行分析对于每个批次将其中的社区报告作为上下文连同用户查询一起发送给大模型使用 Map 系统提示词生成一个中间响应这个响应包含一系列观点每个观点都有一个重要性评分1-100 分{ points: [ { description: 观点1的描述 [数据报告报告ID], score: 评分值 }, { description: 观点2的描述 [数据报告报告ID], score: 评分值 } ]}第一阶段并不回答用户的原始问题只是生成中间响应然后再通过 Reduce 阶段对其聚合生成最终答案重要性排序收集所有中间响应的观点并按重要性评分排序智能过滤按评分选出最重要的观点并确保在 token 预算内最终聚合使用 Reduce 系统提示将选中的观点整合起来作为最终的上下文再次提交给大模型生成一个全面连贯的最终答案可以看出全局搜索通过直接利用最高度浓缩的知识社区报告避免了在海量细碎文本块中进行检索特别适合需要宏观理解和数据集级别分析的问题这个数据集中讨论的主要主题有哪些文档中提到的最重要的趋势是什么数据中的关键人物和组织有哪些这些文档反映了什么样的总体情况它的效果很大程度上取决于选择的社区层级底层社区包含更详细的信息答案更全面但需要更多的计算资源和时间顶层社区处理速度更快成本更低但答案可能较为宏观用户可以根据问题的复杂程度和计算预算选择合适的社区层级。漂移搜索DRIFT Search我们看到全局搜索通过检索社区报告来回答宏观问题而本地搜索则通过图遍历和多源信息融合来回答关于具体实体的微观问题用户在使用时必须先判断出问题的类型然后再明确指定对应的策略使用起来非常费脑子如果能将两种搜索策略融合起来那就完美了。因此GraphRAG 推出了一种更高级的混合搜索策略 ——漂移搜索DRIFT Search这里的 DRIFT 其实是首字母缩写全称为Dynamic Reasoning and Inference with Flexible Traversal它巧妙地结合了全局搜索和本地搜索的优势通过动态推理和灵活遍历实现了更全面、更深入的查询能力。漂移搜索的设计理念是渐进式查询精化首先进行全局层面的主题探索建立宏观认知然后基于初步发现生成深入的后续问题最后通过本地搜索验证和细化这些问题的答案。这种方式避免了全局搜索过于宏观和本地搜索过于狭隘的问题实现了广度和深度的平衡。它的运行流程包含三个核心阶段阶段一被称为Primer用于建立初步的、较宽泛的全局认知分为两步报告选择将用户查询与所有社区报告进行语义相似性比较选择最相关的 Top-K 个社区报告作为初始上下文这里使用了HyDEHypothetical Document Embeddings策略首先根据用户查询生成和社区报告结构类似的假设性文档然后使用这个假设性文档的嵌入来选择社区报告这通常比原始的用户查询嵌入效果更好初步回答将这些报告拆成 N 个批次针对每个批次生成一个宏观层面的初步答案分析初步答案和原始查询的相关性并识别需要进一步探索的方向生成具体的后续问题{ intermediate_answer: 初步答案, score: 和原始查询的相关性, follow_up_queries: [ 后续问题1, 后续问题2 ]}阶段二叫做Follow-Up对生成的后续问题进一步的深入探索问题选择从后续问题列表中选择评分最高的 Top-K 个问题如果没有评分则随机选择局部问答使用本地搜索Local Search对选定的问题进行详细回答这个过程会产生更精确的中间答案并可能生成新一轮的、更具针对性的后续问题{ response: 对后续问题进行回答注意不要回答原始查询, score: 和原始查询的相关性, follow_up_queries: [ 后续问题1, 后续问题2 ]}阶段二是一个while循环这个循环过程会持续进行直到满足停止条件当达到预设的深度限制默认 3 层或所有后续问题均已回答时。然后进入阶段三Reduce系统将所有的中间答案汇聚起来为用户提供一个既有全局概览又有局部细节的综合性答案。漂移搜索通过动态地在全局和局部信息之间“漂移”模拟了人类分析师的探索过程这和最近流行的 Deep Research 技术非常类似能够更智能地应对复杂的、探索性的查询需求这类需求通常会从一个宽泛的起点开始逐步深入到具体细节比如这个数据集中的关键问题是什么它们是如何相互关联的分析一下某个领域的发展趋势及其影响因素深入探讨某个复杂事件的原因、过程和影响比较分析多个概念或实体的异同及其关系综合对比为了更好地理解这四种搜索策略的特点和适用场景我们来做一个综合对比只有根据问题场景选择最适合的搜索策略才能达到最好的效果。技术实现细节最后我们来看下 GraphRAG 搜索策略的技术实现源码位于query/structured_search目录下├── base.py├── basic_search│ ├── basic_context.py│ └── search.py├── drift_search│ ├── action.py│ ├── drift_context.py│ ├── primer.py│ ├── search.py│ └── state.py├── global_search│ ├── community_context.py│ └── search.py└── local_search ├── mixed_context.py └── search.pyGraphRAG 采用了一致的架构设计所有的搜索策略都统一继承自BaseSearch基类提供search()和stream_search()两个方法class BasicSearch(BaseSearch[BasicContextBuilder]): 基础搜索class LocalSearch(BaseSearch[LocalContextBuilder]): 本地搜索class GlobalSearch(BaseSearch[GlobalContextBuilder]): 全局搜索class DRIFTSearch(BaseSearch[DRIFTSearchContextBuilder]): 漂移搜索每个搜索策略都对应一个上下文构建器Context Builder负责从索引数据中构建查询上下文。不同的搜索策略使用专门优化的系统提示基础搜索BASIC_SEARCH_SYSTEM_PROMPT基于文本片段回答用户问题本地搜索LOCAL_SEARCH_SYSTEM_PROMPT基于实体关系、社区报告、文本片段等回答用户问题全局搜索RATE_QUERY根据用户问题对社区报告进行打分用于选择最合适的社区报告MAP_SYSTEM_PROMPT根据社区报告让大模型生成一个中间响应包含一系列关于用户查询的观点及重要性评分REDUCE_SYSTEM_PROMPT聚合中间观点生成最终答案漂移搜索HyDE根据用户问题生成假设性文档DRIFT_PRIMER_PROMPT基于社区报告对用户问题作出初步回答生成后续问题DRIFT_LOCAL_SYSTEM_PROMPT针对后续问题调用本地搜索后生成中间答案并生成新一轮的、更具针对性的后续问题DRIFT_REDUCE_PROMPT基于所有的中间答案回答用户的原始问题具体的源码解读就不再展开了有兴趣的朋友可以对照着上面各节的讲解去看下对应的代码。小结今天我们详细剖析了 GraphRAG 的四大搜索策略从简单到复杂从局部到全局从静态到动态每种策略都有其独特的设计理念通过合理选择和组合这些策略GraphRAG 能够处理从简单事实查询到复杂推理问题的各种场景。至此我们对 GraphRAG 的探索之旅也告一段落。从最初的快速上手到深入索引构建的三个核心阶段文档处理、知识提取、图谱增强再到今天的搜索策略我们系统地学习了 GraphRAG 如何将扁平的非结构化文本一步步转化为一个结构丰富、可深度推理的知识库并最终利用它来赋能更智能的问答系统。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用大模型作为其中的重要组成部分正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力广泛应用于自然语言处理、计算机视觉、智能推荐等领域为各行各业带来了革命性的改变和机遇。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发

河南单位网站建设龙泉做网站哪家好

广东网站建设效果什么是网络营销市场营销学

增城网站建设怎么选择江苏省建设注册中心网站首页

天水地区建网站外包公司属于什么行业

深圳网站seo网页升级访问正在跳转中

网站有很多304状态码网站不可以做哪些东西

阿里云域名备案网站建设方案做个网站的价格

河南单位网站建设龙泉做网站哪家好

广东网站建设效果什么是网络营销市场营销学

增城网站建设怎么选择江苏省 建设 注册中心网站首页

天水地区建网站外包公司属于什么行业

深圳网站seo网页升级访问正在跳转中

网站有很多304状态码网站不可以做哪些东西

阿里云域名备案网站建设方案做个网站的价格

增城网站建设怎么选择江苏省建设注册中心网站首页