做民宿加盟哪些网站比较好四川住房和城乡建设九大员网站

张小明 2025/12/30 16:10:33
做民宿加盟哪些网站比较好,四川住房和城乡建设九大员网站,江苏省网站备案系统,注册公司需要交多少税RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下#xff0c;混合多种媒体形式且具有复杂布局的文档随处可见#xff0c;比如一份PPT#xff1a; 其中可能充满大量的文本、标注、图像与各种统计图表。那么如何对这样的文档构建有效的RAG管道#xf…RAG应用的一大复杂性体现在其多样的原始知识结构与表示。特别在企业场景下混合多种媒体形式且具有复杂布局的文档随处可见比如一份PPT其中可能充满大量的文本、标注、图像与各种统计图表。那么如何对这样的文档构建有效的RAG管道本文将为您介绍我们的实现过程。实验Notebook一、先看效果这里使用《中文大模型基准测评2025年3月报告》这份PPT来做测试因为它的内容够丰富且含有大量图表非常适合用来回答问题。我们期望并达到的效果是**能够图文****结合的回答PPT内容相关的问题。**比如3月份中文大模型评测通用能力水平最高的模型前五名是谁最后输出的答案如下通过对PPT相关的更多问题进行评估效果基本达到了预期。二、总体方案与工具PPT文档或者转成的PDF的复杂之处在于没有固定的格式与布局典型的图、文、表混排相对于文本更倾向用图表来表示信息不过PPT文档也有一个优势有天然的知识块分割每一页即为一个Chunk。所以简单的借助开源解析工具、OCR等做文本提取然后按普通RAG流程处理会丢失大量的语义信息。因此我们的方案是借助多模态的视觉大模型LVM在索引与生成阶段双管齐下索引阶段对每一页截图并生成尽可能丰富的文本表示做嵌入生成阶段将检索到的文本与关联的截图一起输入大模型用于生成需要的工具有文档解析豆包vision模型或开启vision的LlamaParse向量库本地Chroma嵌入模型阿里云Embedding-V3生成模型豆包vision模型框架LlamaIndex或LangChain这里的每一步你都可以选择替代方案。三、文档解析与索引有很多解析PDFPPT转化成PDF文档的开源工具如MarkitdownMarkerPyMuPDF4LLM等。不过经过测试面对PPT这种复杂文档效果最好的是借助视觉大模型。比如我们用豆包的视觉模型对这一页进行生成提示词参考源代码它可以很好的提取文字并对必要内容做整理转化当然在一些不清晰或者元素过多与混乱的局部区域会有一些误差。这也是为什么在生成时我们希望同时输出原图片来参考的原因。在测试时为了方便我们采用了LlamaIndex提供的云端解析服务LlamaParse打开Vision功能原理也是借助视觉大模型来完成这一步。其好处是会帮你保留每一次解析结果[[采用视觉大模型的解析与索引的处理流程【流程说明】原文档的每一页PPT转为图片并借助多模态模型解析成每一页的Markdown文本注意不是简单的文字提取【可选】借助LLM对生成的Markdown文本块做适当增强我们做了两个动作生成该页的简单摘要生成该页可以回答的5个假设性问题将每一页的Markdown文本块作为一个Chunk并根据页码与页面图片关联起来保存图片路径在Chunk元数据用来在检索时能够根据Chunk找到对应图片嵌入这些文本Chunks保存到向量库。注意这里不用做分割(Split)。四、检索与生成检索与生成阶段的流程如下【流程说明】从向量库检索关联的块也就是前面对应到PPT页面的生成文本根据这些块中的元数据(Image_path)找到对应的页面截图将文本块组装成Prompt与找到的图片一起输入多模态模型等待响应对响应做简单转换以Markdown格式展示最终结果【重点说明】由于我们需要将关联的页面图片同时输入视觉模型因此通常不能借助框架的高层抽象比如LlamaIndex中的index.as_query_engine来直接获得RAG引擎后查询。需要自定义一个查询过程大致如下.....lvm DoubaoVisionLLM(model_name你的豆包模型名字)class MultimodalQueryEngine(CustomQueryEngine):... def custom_query(self, query_str: str): #检索关联chunknodes nodes recursive_retrieve(query_str) #组装prompt context_str \n\n.join( [r.get_content(metadata_modeMetadataMode.LLM) f\n以上来自图片{r.metadata[image_path]} for r in nodes] ) fmt_prompt self.qa_prompt.format(context_strcontext_str, query_strquery_str) #输入提示和图片 response self.multi_modal_llm.generate_response( promptfmt_prompt, image_paths [n.metadata[image_path] for n in nodes] )...multi_query_engine MultimodalQueryEngine( multi_modal_llmlvm)这里简单封装了一个豆包的视觉大模型DoubaoVisionLLM具体参考源码。另一个技巧是关于输出。如何让输出结果用图文结合的方式来展示呢我们在Prompt中给予了视觉大模型提示..输出格式{{response: #你的Markdown格式的回答#, image_path: [#与答案最相关的图片路径#]}}...然后对输出结果做简单转化...response_json json.loads(response)answer response_json.get(response, )image_paths response_json.get(image_path, []) markdown_output f### 答案:\n\n{answer}\n\n### 参考来源:\nfor image_path in image_paths: markdown_output f![Image]({image_path})\n至此对PPT构建的多模态RAG管道已经完成。我们用代码做测试response multi_query_engine.query(这次评测中表现最好的开源模型有哪些)from IPython.display import Markdowndisplay(Markdown(response.response))得到如下答案效果似乎还不错五、问题与优化在测试过程中我们也发现一些问题与可能优化的空间包括尽管视觉模型已经很强大但也并非完美在一些图片解释上会发生少量偏差多模态模型的使用特别是在生成阶段响应速度相对普通LLM会下降且对Tokens消耗更大但并非不可接受。如果PPT的页数或文档更多在检索时精确度会下降特别是输入问题较为模糊时。我们提供了两个优化实现但未做评估验证对每个页面再次分割减小Chunk的粒度以提高检索精度并在检索时查找到“父块”用于生成尝试构建了关键词表索引可结合向量索引进行融合检索。此外还可以考虑的一些优化有如果有大量PPT可以借助元数据先做一次过滤借助Agentic RAG回答不同类型的问题比如总结性与细节性问题测试多个向量模型与多模态模型特别是向量模型对检索结果有较大影响在实际应用中生成的页面图片最好放在共享存储用URI访问以上就是本次全部内容。RAG系统是典型的“三天上线一年优化”很多优化都需要反复的验证与评估如果你有更好的想法欢迎与我们分享。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

买CAD设计图做的网站h5在线编辑

第一章:量子计算镜像的兼容性测试在构建量子计算仿真环境时,确保镜像系统与目标硬件和软件栈的兼容性至关重要。不兼容的镜像可能导致量子门模拟异常、测量结果偏差或运行时崩溃。因此,在部署前必须对镜像进行系统性验证。测试环境准备 使用支…

张小明 2025/12/25 17:10:52 网站建设

重庆官方网站建设百度知道入口

本科论文写作最痛苦的不是不会写,而是: 写完了,却过不了重复率和 AIGC 检测。 为了让更多同学不踩雷,我把 10 个常用的论文写作 降重工具 做了体验总结。 所有评价都基于真实体验。总结表工具主功用效果适用阶段沁言学术写作 降…

张小明 2025/12/25 17:10:18 网站建设

wordpress 潜在威胁seo课程培训中心

你是不是也这样? 选题定了又改,大纲写了又删,引言反复重写却始终“不像学术论文”……眼看答辩日期逼近,文档里还只有孤零零的“第一章”标题。别再让写作困境耽误你的毕业进程!百考通全新推出的“毕业论文”AI智能写作…

张小明 2025/12/25 17:09:43 网站建设

做网站官网需多少钱一级做c爱片的网站

Linly-Talker:全栈离线数字人系统如何重塑数据安全边界 在医疗问诊、金融咨询或政府内网服务中,一句“您的对话将被加密上传至云端处理”往往会让用户迟疑——即便服务商承诺合规,数据一旦离开本地终端,信任链便开始脆弱。这正是当…

张小明 2025/12/25 17:09:11 网站建设

加强纪检监察网站建设网站源码.net

第一章:Open-AutoGLM快速入门概述Open-AutoGLM 是一个开源的自动化通用语言模型(GLM)集成框架,专为简化大语言模型在实际业务场景中的部署与调用而设计。该框架支持多平台接入、任务自动调度以及上下文感知推理,适用于…

张小明 2025/12/25 17:08:39 网站建设

足球门户网站建设长沙建企聘企业管理有限公司

从HTML前端调用FLUX.1-dev图像生成API的技术实现路径 在创意工具日益智能化的今天,越来越多的产品希望将“输入一句话,输出一幅画”这样的能力无缝嵌入网页中。用户不再满足于静态内容浏览,而是期待实时、直观、低门槛的AI交互体验——比如在…

张小明 2025/12/27 0:43:41 网站建设