教你如何建网站视频网站flash代码

张小明 2025/12/30 20:17:47
教你如何建网站视频,网站flash代码,环球设计,手机网站制作报价0 前言 在上一篇文章中#xff0c;我们学习了词嵌入和位置编码的概念#xff0c;由于Transformer不认识文字#xff0c;因此我们需要将文本转化为数据#xff0c;也就是我们说的词嵌入。 光有词嵌入还不够#xff0c;还需要让Transformer学习词与词之间的位置关系#xf…0 前言在上一篇文章中我们学习了词嵌入和位置编码的概念由于Transformer不认识文字因此我们需要将文本转化为数据也就是我们说的词嵌入。光有词嵌入还不够还需要让Transformer学习词与词之间的位置关系因此多了一个位置编码最终将二者相加得到了Transformer的输入。这篇文章我们主要了解的是Transformer的注意力机制如果不了解词嵌入和位置编码的朋友可以先阅读一下上一篇文章[彻底搞懂Transformer01文本到底是怎么转化为数据的]直接阅读本文也没关系输入无非就是一个矩阵细节我们不了解也不影响我们学习自注意力机制。老规矩上Transformer的架构图1 思维导图Transformer的结构非常复杂但是所有的复杂都源于基础的堆砌因此把每个结构都了解清楚了整体的网络模型自然也就不是问题。Transformer主要分为编码器和解码器我们今天要说的自注意力机制在编码器和解码器中都会用到也是整个Transformer的整个精髓所在现在大多数模型效果不好就是遇事不决注意力机制由此可见注意力机制的地位。看一下我们要学习的内容在上一节中我把自注意力机制和多头注意力分开了我觉得这二者还是放在一起说比较好。另外将Add Norm层和前馈神经网络放到了一起等到这几部分内容都学习完之后我们就知道了编码器的结构再学习解码器的结构最后看整体结构Transformer的整体结构和一些细节问题因此本篇文章重点自注意力机制。输入处理词嵌入与位置编码自注意力机制Add Norm层和前馈层解码器的结构整体结构要了解自注意力主要学习以下五个部分Q K V矩阵是啥干什么用的如何计算注意力权重得到了权重之后怎么计算出注意力的结果如何通过单个注意力扩展到多头输入与输出的参数关系有什么注意的地方学习了以上几点你就可以彻底掌握自注意力机制也能回答你心中的疑问机器是哪来的注意力的。2 Q K V矩阵首先通过感性的认识介绍一下QKV矩阵的作用。设想一下我们的输入每一维是一本书并且每一本书有自己的标签(Key)、和内容(Value)你现在要在这些书里查询(Query)你想要的信息并且汇总。比如你要查询去北京游玩的攻略现在有三本书标签是北京的景点、北京的交通和以及北京的经济V是这些书的内容Q是你要查询的问题如果是你的话你会怎么做呢你肯定60%的精力去看关于景点的书30%的精力去看交通的书10%的精力了解一下北京的经济这大概就是注意力机制一个非常抽象的理解这个注意力就体现在你的重视程度上注意力分数也可以说是权重百分比。2.1 Q K V矩阵的计算有了以上感性的认识我们直接进入真正的Q K V的计算。假设我们的输入数据X是一个3×6的矩阵此时我们需要用Wk、Wq以及Wv三个矩阵来提取输入的QKV信息并且把Wk、Wq以及Wv三个矩阵的大小设置为6×2,输入X与Wk、Wq以及Wv三个矩阵相乘计算得到QKV大小为3×2。QKV矩阵就计算出来了就这么简单。2.2 注意力权重的计算得到了QKV矩阵后我们再依据注意力机制的公式来计算注意力的分数权重计算注意力机制权重的公式为那么放到我们这个例子里就如下图最终得到一个Y矩阵也是我们的注意力分数大小为3×3。2.3 注意力结果的计算将计算得到的Y矩阵再与V矩阵相乘,得到结果Z在计算得到Z后我们已经由输入X得到了结果由此注意力机制的结果就计算结束了在这里我们总结一下整个计算过程1、我们将输入X兵分三路分别乘以一个Wk、Wq以及Wv来得到Q K V矩阵2、将Q矩阵与K的转置矩阵相乘除以根号dk再经过softmax函数得到Y矩阵也就是注意力分数3、将Y矩阵与V相乘得到最终的结果Z。3 多头注意力那么什么是多头注意力呢实质上就是多次使用注意力机制再拼接的结果。我们知道由于Transformer里面是由多个一模一样的模块堆砌而成的为了结构简洁明了因此我们尽量保持输入与输出一致。我们刚才可以看到我们的输入是3×6矩阵输出是3×2矩阵因此多头注意力机制中其实就是用多个相同的注意力机制得到结果后再将结果拼接到一起使得输入和输出大小一致。如下图将Z1、Z2、Z3按照列拼在一起得到Z,大小为3×6继续进入下一个相同的模块中此时我们再回过头来看注意力机制的计算图和多头注意力机制的图就一目了然了4 参数关系我们再来研究一下这里面矩阵的关系。4.1 大小关系我们的输入大小是3×6最终要求输出的大小也是3×6是需要满足一定的关系的。1、Q与K的转置要能够相乘那么Q矩阵和K矩阵大小至少要保持一致。2、注意力分数矩阵的大小是一个正方形长和宽为输入X的行数。3、dmodeldv×num_heads,即输入X的列数V矩阵的列数×注意力的头数。验证一下我们的dmodel6dv2注意力个数为363×2。4.2 举例理解再多说一句注意力机制的物理含义我们再来举一个例子假设现在有3个职业的人在一起分别为厨师(K)、医生(K)和体育老师(K)他们分别懂得做菜(V)、健康(V)和运动的知识(V)。现在1、厨师想要了解健康和运动的知识(Q)2、医生想要了解做菜和运动的知识(Q)3、体育老师想了解做菜和健康的知识(Q)假设他们各自懂的的知识为1×6的向量放在一起就是3×6的输入X我们按照文章前面的流程用Wk、Wq以及Wv三个矩阵来提取输入X的Q K V信息,然后计算得到注意力的分数矩阵Y大小为3×3。再将Y与V相乘并且由多头注意力机制得到结果我们仔细研究一下Y与V相乘的过程Y矩阵里面的分数通过softmax得到每一行的概率加起来为1。通过Y矩阵我们可以看到他们三人对自己本身的职业并不感兴趣对对方的职业更感兴趣一些因此自己对自己的注意力分数不高对别人的注意分数要高一些。这也就是自注意力机制中“自”的来源自己对自己的注意力。通过矩阵相乘的方法可以得到结果最终Z11里面包含了20%的厨师的知识45%的医生的知识35%体育老师的知识。以此类推Z1 Z2 Z3里面最终每一行里面最终包含的知识既有厨师自己的也有医生的也有体育老师的因此达到了各自的目的厨师了解到了自己想要知识其他人也一样这就是注意力的体现。再多说一句Y矩阵是可以训练的因此具体的注意力分数是根据实际训练得到的。大家不要认为自己对自己的注意力没有意义我在这里只是简单举个例子在实际应用中这个分数也是很重要的。最后我们再看上图虽然输入X和输出Z都是3×6但是输出的信息中。已经包含了他们各自感兴趣的信息并且是有权重的这就是注意力机制的精妙之处。注意力机制讲完了下一篇Add Norm层和前馈层。那么如何系统的去学习大模型LLM作为一名深耕行业的资深大模型算法工程师我经常会收到一些评论和私信我是小白学习大模型该从哪里入手呢我自学没有方向怎么办这个地方我不会啊。如果你也有类似的经历一定要继续看下去这些问题啊也不是三言两语啊就能讲明白的。所以我综合了大模型的所有知识点给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢我就曾放空大脑以一个大模型小白的角度去重新解析它采用基础知识和实战项目相结合的教学方式历时3个月终于完成了这样的课程让你真正体会到什么是每一秒都在疯狂输出知识点。由于篇幅有限⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》扫码获取~大模型学习指南路线汇总我们这套大模型资料呢会从基础篇、进阶篇和项目实战篇等三大方面来讲解。①.基础篇基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念用最易懂的方式带你入门大模型。②.进阶篇接下来是进阶篇你将掌握RAG、Agent、Langchain、大模型微调和私有化部署学习如何构建外挂知识库并和自己的企业相结合学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。③.实战篇实战篇会手把手带着大家练习企业级的落地项目已脱敏比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等从而帮助大家更好的应对大模型时代的挑战。④.福利篇最后呢会给大家一个小福利课程视频中的所有素材有搭建AI开发环境资料包还有学习计划表几十上百G素材、电子书和课件等等只要你能想到的素材我这里几乎都有。我已经全部上传到CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我这套大模型系统教程将会是全网最齐全 最易懂的小白专用课
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

做招聘网站还有法盈利吗wordpress 添加广告窗口

套接字网络编程指南 1. 获取本地主机名 在网络编程中,有时需要获取本地主机的名称。可以使用 gethostname 函数来实现: #include <unistd.h> int gethostname(char *name, int len);name :指向用于存储主机名的字符数组。 len :字符数组的大小。 该函数成功…

张小明 2025/12/29 7:57:39 网站建设

python做网站表白购买网站域名怎么做会计分录

终极signature_pad移动端适配指南&#xff1a;告别卡顿的完整解决方案 【免费下载链接】signature_pad HTML5 canvas based smooth signature drawing 项目地址: https://gitcode.com/gh_mirrors/si/signature_pad 在移动端签名开发中&#xff0c;你是否遇到过这样的尴尬…

张小明 2025/12/29 7:58:36 网站建设

织梦网站图标路径二级不死域名制作方法

ABAP内表汇总数据的方法汇总一本文主要介绍ABAP中使用内表统计的几种方式二四种统计方式内表统计执行数据统计大致有下述几种方式, 这些方式本身没有优劣差异,根据实际情况选择一种使用就好.COLLECT 语句实现AT NEW 语句实现LOOP AT GROUP 语句实现READ 哈希表语句实现. SELECT…

张小明 2025/12/29 7:57:42 网站建设

视频网站怎么做网站引流网站运营培训机构

还在为昂贵的原厂自动驾驶系统望而却步吗&#xff1f;别担心&#xff0c;今天我要分享一个让技术爱好者兴奋的秘密&#xff1a;用不到1500元的预算&#xff0c;你也能构建属于自己的智能驾驶系统&#xff01;&#x1f697; 作为开源自动驾驶项目openpilot的深度探索者&#xff…

张小明 2025/12/29 7:57:43 网站建设

个人网站号备案吗wordpress做官网

第一章&#xff1a;量子模拟器 WASM 的兼容性在现代浏览器环境中运行高性能计算任务已成为可能&#xff0c;量子模拟器通过 WebAssembly&#xff08;WASM&#xff09;技术实现了跨平台执行。WASM 提供了接近原生速度的运算能力&#xff0c;使复杂的量子电路模拟能够在客户端完成…

张小明 2025/12/29 7:57:44 网站建设

自己能建设网站wordpress按钮下拉

5个必知技巧&#xff1a;快速解决ADK-Python本地服务连接难题 【免费下载链接】adk-python 一款开源、代码优先的Python工具包&#xff0c;用于构建、评估和部署灵活可控的复杂 AI agents 项目地址: https://gitcode.com/GitHub_Trending/ad/adk-python 你是否在开发AI智…

张小明 2025/12/29 7:57:46 网站建设