免费的黄冈网站代码,广州公司注册核名网址,允许个人做动漫网站吗,做网站 成都前言
之前我们一直强调#xff0c;大语言模型#xff08;LLM#xff09;是概率生成系统。
能力边界
知识时效性#xff1a;模型知识截止于训练数据时间点推理局限性#xff1a;本质是概率预测而非逻辑运算#xff0c;复杂数学推理易出错#xff08;deepseek的架构有所…前言之前我们一直强调大语言模型LLM是概率生成系统。能力边界知识时效性模型知识截止于训练数据时间点推理局限性本质是概率预测而非逻辑运算复杂数学推理易出错deepseek的架构有所不同专业领域盲区缺乏垂直领域知识幻觉现象可能生成看似合理但实际错误的内容之前一直讲解如何通过各种不同的知识库进行知识片段的检索并通过提示词临时注入到大模型。从今天开始我会写一写微调相关的文章。什么是模型微调定义在预训练大模型如GPT、BERT的基础上使用特定领域或任务的数据进行额外训练使模型适应新任务。类比类似“博士生在通识教育预训练后专攻某个研究方向微调”。微调适用场景提升特定领域的专业性场景特点高度专业化知识如医学、法律、金融、科技等 通用大模型缺乏特定领域的知识和逻辑。示例医疗报告生成需准确使用医学术语和遵循临床病例格式法律合同审核需识别合同条款的合规性和潜在风险财务报告解析从PDF年报中提取营收、毛利率等结构化数据科研论文评审识别论文方法论部分的实验设计缺陷让模型更符合企业需求场景特点企业需要 AI 具备特定业务逻辑。示例代码生成蚂蚁的zone美团的set普通的模型能解决代码实现的问题但是解决不了他们的zone和set的逻辑。比如阿里的代码员工就是微调出来的。业务流程每个公司的业务流程不一样每个节点的规则也不一样如果我把项目流程微调到大模型企业助手比如各种手册的微调然后就是一个企业的产品专家。让模型更符合用户偏好场景特点个性化示例个性化的聊天每个互联网产品都有自己的风格和用户特性提示词能解决一部分内容创作助手把小说的大纲以及涉及的知识点微调进去视频风格微调进去。游戏NPC游戏的设定等微调进去NPC更具备灵活性。让模型执行特定任务场景特点标准化任务。示例代码生成模型用大量 Java、Python 代码训练 AI让它更擅长某种编程语言。表格理解: 微调模型解析扫描文档中的复杂表格结构提取关键字段数据安全 隐私问题场景特点数据敏感。示例银行数据通过本地微调银行敏感数据微调出具备风险能力的模型让模型在不暴露的前提下具备风险识别能力。医疗机构 通过本地微调病人病例和诊断证明专业数据让模型具备辅助诊断能力。资源受限场景场景特点离线设备、专业设备、低显存。示例设备故障诊断手册查询微调轻量级模型快速解析设备编码与维修手册条目的对应关系地下或海底救护知识手段生存技能何时选择微调 vs. 其他方案场景推荐方案原因数据充足且领域差异大全参数微调最大化模型能力适应性强数据少但需快速适配LoRA/P-Tuning节省资源避免过拟合实时性要求高RAG检索增强生成动态注入最新知识无需重新训练输出需严格可控提示工程少量微调通过模板约束输出微调提升指令跟随能力无标注数据零样本/少样本提示直接利用预训练知识成本最低模型微调的方式1. 按训练目标分类有监督微调Supervised Fine-Tuning, SFT有监督微调是最常见的微调方式适用于任务明确且具有标注数据的情况。通过使用人工标注的高质量数据对模型能够学习特定任务所需的知识从而在指定任务上提供准确的输出。适用场景数据充足且任务目标明确的情况如文本分类、情感分析、命名实体识别等。数据示例[ { instruction: 作为法律顾问请回答以下问题, // 可选指令模板 input: 如果我在公司被解雇我有权获得多少赔偿, output: 根据《劳动合同法》第47条... }, { input: 签订购房合同后开发商违约怎么办, output: 您可以依据《合同法》要求... }]指令微调Instruction Tuning指令微调旨在增强模型理解并执行不同指令的能力。通过指令-输出对的训练使模型能够更好地遵循人类指令提高其在多个任务上的泛化能力。适用场景需要提升模型的泛化性和指令理解能力如聊天机器人、自动化任务、智能问答等。数据示例[ { instruction: 用简单的语言解释量子力学。, input: ,//可省略 output: 量子力学是研究微小粒子行为的科学... }, { instruction: 将以下句子翻译成法语。, input: 你好今天天气不错。, output: Bonjour, il fait beau aujourdhui. }]对齐方法RLHF/DPO通过人类反馈如 Reinforcement Learning from Human Feedback, RLHF或直接偏好优化Direct Preference Optimization, DPO调整模型的输出使其更符合人类价值观提高安全性和一致性。适用场景需要控制模型输出的安全性或风格一致性如客服机器人、儿童内容生成、内容审核等。RLHF数据示例[ { prompt: 请写一篇关于气候变化的文章。, chosen: 气候变化是人类面临的最紧迫问题之一。科学研究表明..., rejected: 气候变化是媒体夸大的骗局无需在意。, score: {chosen: 5, rejected: 1}, // 可选标注人工评分 reject_reason: 否定科学共识 // 可选标注拒绝原因 }]rejected回答应明确包含安全性或价值观问题如危险步骤、歧视性内容而非仅是质量差异DPO数据示例[ { prompt: 如何回应‘女性不适合学理科’的观点, chosen: 性别不应限制个人发展许多女性科学家取得了卓越成就。, rejected: 女性的逻辑思维确实比男性差这是客观事实。 }]多任务学习通过同时优化多个相关任务提升模型的泛化能力使其能够高效处理多种任务。通过损失函数动态调整不同任务的训练权重。适用场景任务之间存在关联性适用于智能助理、语音识别、情感分析等任务。数据示例[ { task: 情感分析, input: 这款手机的电池寿命太短了太失望了。, output: 负面, }, { task: 文本摘要, input: 近日某科技公司发布了一款新产品..., output: 某科技公司发布新品 }]2. 按参数更新策略分类全参数微调Full Fine-Tuning所有模型参数都参与训练通常需要大量计算资源适用于数据充足、计算资源充足的情况。技术代表常规SFT、RLHF如ChatGPT的训练方式。数据示例{ model: GPT-3, trainable_parameters: 100%, dataset: 500K法律文本对, fine_tuning_method: 全参数微调}部分冻结微调Partial Fine-Tuning仅训练模型的部分层如冻结底层参数仅更新高层参数降低计算开销。技术代表如BERT冻结前8层仅训练后4层。数据示例{ model: BERT, trainable_layers: 最后4层, frozen_layers: 前8层, fine_tuning_method: 部分冻结微调}参数高效微调PEFT仅更新少量的参数通常通过结构化方法如LoRA、Adapter减少计算需求并在低资源环境下实现高效微调。技术代表LoRA低秩适配、Adapter插入小网络。LoRA的特点只调整部分参数如低秩矩阵分解。降低计算和内存开销。适合快速微调尤其在资源受限时。adapter的特点插入额外的 Adapter 层降低计算和内存开销。仅训练 Adapter 层和可独立存储 Adapter 层多任务学习、迁移学习。最后比较下Adapter插入额外的小型可训练模块适用于多任务和迁移学习。LoRA通过低秩矩阵分解调整少量关键参数适用于快速微调。如果需要在多个任务间切换Adapter 更合适如果只是对单个任务高效微调LoRA 更优。大模型微调框架简介在大模型微调领域存在多种框架每个框架都有其独特的优势和局限性。下面介绍几种常见的微调框架包括示例代码和适用模型帮助你根据任务需求选择最合适的框架。1. Hugging Face Transformers简介Hugging Face Transformers 业界标准NLP框架提供200预训练模型和全流程工具链覆盖文本、图像、音频多模态任务。核心优势全模态任务覆盖预训练模型生态(社区模型库含30万微调模型,并且覆盖覆盖BERT、GPT、LLaMA、Whisper、ViT等主流架构)跨框架无缝衔接开箱即用工具链企业级部署支持开发社区极为活跃尽管 Hugging Face Transformers 在许多常见任务中表现优秀但在超大规模模型的微调和训练中可能会面临性能瓶颈和资源消耗过大的问题。2. DeepSpeed简介DeepSpeed是微软开发的分布式训练引擎通过ZeRO优化实现百亿级模型全参数微调。核心技术ZeRO 显著减少内存占用提高分布式训练的效率CPU Offloading 混合精度训练加速训练过程并减少显存需求自适应梯度累积DeepSpeed适合大规模模型的训练但使用门槛较高需要深入理解框架的底层实现。看了下官网不是我能玩的。3. LLaMA-Factory本文使用的框架简介国产低代码微调框架看下官方的介绍。4Megatron-LM简介NVIDIA千亿级模型训练框架采用3D混合并行策略张量并行 流水并行 数据并行性能指标175B模型训练3072 A10080G吞吐量502 petaFLOPs适用场景GPT-4级别模型预训练/微调。据说坑不少有不少人推荐。torchtitan。如何选择微调框架不管是感官上还是大模型得推荐上对于我来说选择LLaMA-Factory是最好的选择。后续我基于这个做微调实现。专有名词过拟合Overfitting是指模型在训练数据上表现得非常好但在新数据或测试数据上的表现较差的现象。换句话说模型过度学习了训练数据中的细节和噪声以至于无法很好地泛化到未见过的数据。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】