免费网站免费进入在线,济南百度代理,怎么用链接提取视频保存,导出wordpress到文本摘要
工业时间序列数据提供有关设备运行状态的实时信息#xff0c;有助于识别异常。数据驱动和知识引导的方法在这一领域已经占据主导地位。然而#xff0c;这些方法依赖于工业领域知识和高质量的工业数据#xff0c;这可能导致诸如诊断结果不明确和开发周期长等问题。本文…摘要工业时间序列数据提供有关设备运行状态的实时信息有助于识别异常。数据驱动和知识引导的方法在这一领域已经占据主导地位。然而这些方法依赖于工业领域知识和高质量的工业数据这可能导致诸如诊断结果不明确和开发周期长等问题。本文介绍了一种新颖的人在环任务驱动方法以减少对手动注释数据的依赖并提高诊断结果的可解释性。该方法利用大型语言模型进行故障检测促进过程自治增强人机协作。此外本文探讨了大型语言模型的四个关键角色:管理数据管道、纠正因果关系、控制模型管理以及对诊断结果做出决策。此外提出了针对时间序列数据的故障诊断设计的prompt结构使大型语言模型能够实现任务驱动。最后本文通过钢铁冶金背景下的案例研究验证了所提出的框架。1. 引言随着工业5.0的发展机械设备的稳定运行对于保证安全生产至关重要。对机器设备进行有效的监测、预测、检测和诊断不仅是工业发展的保障也是工业发展的动力。工业场景中时间序列异常检测的任务很复杂需要在整个开发过程中从手动方法过渡到自动化方法。在工业应用中基于时间序列的故障诊断任务是复杂的。操作人员需要观察和预测数据趋势的变化发布故障预警并分析趋势之间的因果关系。在这个过程中故障任务需要从手工流程向自动化发展。特别是在钢铁冶金领域复杂任务流程和海量传感器数据处理的自动化已经成为一个重大的工程问题。目前故障诊断模型严重依赖领域专家来管理每个任务的数据集并创建特定的模型进行训练。这种方法不仅费力而且随着时间的推移也难以维持。此外由于整个工业过程主要依赖于人为干预——包括数据处理和模型选择——这导致了漫长的设计周期和高昂的维护成本。因此有效利用大量数据进行自动化处理再加上开发合适的模型已经成为一个迫切需要关注的关键问题。“大数据-人工智能-物联网”BD-AI-IoT时代的到来使得人工公式调整已无法应对海量数据生成的挑战。由此催生了故障诊断1.0时代FD 1.0其特征是采用基于预测、基于重构及混合方法的数据驱动自动化流程。在这一自动化过程中故障诊断依赖数据并能从中生成模型。多种方法已被证明有效包括基于预测的方法Chauhan Vig2015Z. Chen等2022Munir等2019、基于重构的方法Audibert等2020L. Li、Yan等2023B. Zhou等2019以及混合方法Bashar Nayak2020Han Woo2022Zhao等2020。尽管这些方法取得了成功但其在可解释性方面仍面临挑战并且高度依赖数据质量。为解决这些问题研究人员提出整合数据驱动的领域特定规则以在整个过程中提高可解释性并降低对数据质量的依赖Xin等2022这标志着故障诊断1.5时代FD 1.5的开端。常用策略包括专家系统与神经网络的融合以及知识图谱与深度学习的融合Chai2020。虽然这些方法提升了可解释性但也存在局限性例如故障知识规则不完整以及难以解决新问题。FD1.0时代是由数据驱动的方法定义的这些方法在可解释性和模型可重用性方面面临挑战。为了解决这些问题FD1.5将数据驱动技术与领域特定规则结合起来提高了模型的可解释性但仍然依赖于大量的人工参与。大语言模型LLM的出现开启了FD2.0时代任务驱动的自主故障诊断成为可能。在任务驱动型故障诊断中用户向LLM提供时间序列数据和任务标志着故障诊断2.0时代(FD 2.0)的开始。LLM通过系统化分解用户任务并整合专家知识来处理每个子任务从而有效提升其对整个任务流程的管理能力Ruan等2023。随着GPT3.5、GPT4和Chat GLMDu等2022等语言模型的涌现这些通过感知学习展现认知能力的模型已在多个领域取得显著成果。这些依托感知学习实现认知能力的生成模型能为用户提供符合预期的智能回应。图1概述了从FD1.0到FD1.5最后到FD2.0的进展突出了这一过程的变革性质。这一演变展示了可解释性、自动化和任务处理能力的重大改进。由LLM提供支持的FD2.0提供了更高的灵活性减少了人为干预并且能够利用数据驱动的洞察力和特定领域的知识标志着故障诊断方法的范式转变。图1故障诊断时代分为FD1.0、FD1.5和合并的FD2.0三个阶段LLM的突破性进展为工业故障诊断带来了重大变革。这些模型不仅能精准定义和拆解工业任务还能简化时间序列数据预处理、故障检测/预测模型构建、模型结果解读以及根本原因识别等关键环节Tu等2023。在故障诊断全流程中LLM高效承担着多重角色其任务分解后的数据处理能力已与人类专家不相上下Cheng等2023。以MetaGPTHong等2023、HuggingGPTShen等2023和AutoGPTYang等2023为代表的智能工具正是人类研发的智能助手既能自主完成指定任务又能提供专业反馈与优化建议。用户可以根据其输出查询LLM从而实现持续学习和改进。这种协作过程使LLM能够更有效地处理类似或新的问题。随着智能系统越来越融入社会对有效人机交互的需求也在增加。因此机器产生可靠和可读信息的重要性变得更加关键。结合人在环学习增强了灵活性、适应性和交互性提高了机器的能力。Prompt对LLM高效理解输入信息至关重要。prompt的选择会影响模型的问题解决导向和策略必须针对具体任务进行定制。北京大学与阿里巴巴的研究人员提出了一种利用LLM对时间序列数据进行分类和预测的技术。该方法采用软prompt基于频率、形状、值等不同特征来匹配时间序列可以增强LLM处理多元时间序列嵌入的能力然而这种预定义的分类方式在处理复杂时间序列数据时灵活性受限因其可能无法捕捉所有关键信息或变量间的空间关系。LLM面临若干挑战1.可控生成LLM由于其固有的不稳定性导致同一问题的答案不一致实现可控生成具有挑战性。本研究引入了prompt工程来处理时间序列数据进行故障诊断从而提高了模型遵循用户指令的能力。2.高效自适应LLM适应垂直领域涉及快速学习和模型参数的微调(Delta调优)。目标是在特定领域内装备LLM解决问题的能力。在工业故障诊断中确定LLM如何取代传统过程以促进高效的人机协作是至关重要的。建立一个适当的框架对于利用LLM的能力来提高效率和有效性至关重要。本文分析了工业环境中基于时间序列数据的故障诊断任务。目前工业异常诊断过程高度复杂和错综复杂使故障检测和故障排除变得困难。处理范围广泛的参数和变量以及数据中的不确定性增加了这些任务的复杂性。传统的故障诊断方法往往无法有效管理未知故障严重依赖专家经验导致诊断过程既耗时又难以自动化。本文旨在将工业时间序列故障诊断作为LLM的任务目标来解决。所提出的方法将复杂的任务目标分解为优先级优先的子任务列表从而明确了目标并增强了对LLM的理解。研究了一种基于LLM的工业时间序列人在环故障诊断方法。我们的研究包括以下贡献:1.本研究提出了一种基于LLM的方法来开发任务驱动的自主故障诊断流程。该框架通过结构化的人在环模型增强了人机交互。2.为克服时间序列数据处理中预定义时间特征的局限性本研究提出一种组合推理方法。该方法明确了LLM的作用融合了少样本学习并整合了领域知识。3.LLM在故障诊断任务中的角色:i.数据处理LLM作为管道管理器管理整个数据管道并根据用户输入协调各个阶段的数据流和依赖关系。ii.因果关系修正LLM作为监督者访问和纠正由使用领域知识的算法推断的因果关系。iii.故障预测和检测任务LLM作为控制器使用算法库中的模型和用户需求提出建议。它调用本地算法接口来执行结果。iv.故障诊断LLM作为决策者使用来自规则库的故障知识来推断检测到异常的原因。如果没有发现原因LLM进行网络查询收集信息并提供解决方案。2. 相关工作2.1. 大模型vs小模型随着LLM的快速发展出现了GPT3.5/4、ChatGLM、Vicuna等具有自主认知能力的生成模型。这些具有数十亿个参数的模型被分类为大模型而具有数百万个参数的模型被分类为小模型((S. Li et al., 2022)。与小型模型相比大型模型在推理能力、计算能力和泛化方面表现出了显著的性能((L. Li, Zhang, et al., 2023; Shridhar et al., 2023)。尽管大型模型的出现改变了分散的模型开发模式即单个AI应用场景中的多个任务需要多个模型的支持每个模型都需要算法开发、数据处理、模型训练和调优(Y.-F. Li, Wang, et al., 2023)。尽管如此小型模型仍然具有显著的优势例如训练成本低、尺寸较小、易于维护。因此可以采用“小模型车间”和“大模型工业化”相结合的方法在考虑到这些模型各自优势的情况下充分挖掘这些模型的潜力。LLM的生成能力是其最显著的特征。在数据缺失不可避免的行业中LLM在生成缺失的事件序列值或填充时间序列数据方面证明了它们的价值使领域模型能够有效地解决缺失数据的挑战。此外LLM还可以作为集成不同领域模型的综合模型库。这种集成方法是通过使用评分机制聚合多模型来识别最优模型来实现的。领域模型更适合于特定的领域其中LLM更一般化以处理更复杂的工业任务。Yao(2023)认为大模型和小模型可以从数据交互、模型交互、应用交互三个方面进行组合如表1所示。表1小模型车间vs大模型工业化((Ma et al., 2023; Q. Yao, 2023)这种小模型和大模型的结合增强了学习和处理复杂问题的能力同时为时间序列数据的深度特征提取和处理奠定了基础。这些模型可以发现底层的发现模式、趋势和相关性提取这些信息作为领域模型的输入特征。因此领域模型可以直接从细粒度特征中学习减少它们对原始数据的处理提高领域模型理解和分析时间序列数据的能力。2.2. LLM 时间序列数据故障诊断ChatGPT的成功引起了学术界的广泛关注使得LLM应用于时间序列数据故障诊断的研究兴趣增加(Wu et al. 2023)。Li等人(2023)已将设备健康管理和预测确定为LLM应用的未来研究方向。他们认为当前的深度学习模型需要从单模态、单任务的方法转向利用大量数据的多模态、多任务的方法。他们认为现有的深度学习方法在认知和泛化能力方面存在局限性。同样Zhou等人(2023)提出了一种创新的解决方案称为D-Bot专为数据库管理员设计。D-Bot通过LLM持续从文本资源中获取数据库维护经验并为目标数据库提供持续的诊断与优化建议。此外Chen等人(2023)提出了一种称为racopilot的方法该方法使用LLM分析自动识别云事故的根本原因。racopilot依靠LLM来总结故障信息并预测多事件故障以确定其根本原因。Ahmed等人(2023)将LLM推理和总结技术应用于历史故障文本如故障描述、根本原因报告和建议的解决方案。通过这种方法他们为新出现的问题推荐根本原因和解决方案。本研究提出一种任务驱动的LLM框架用于时间序列数据的故障诊断。该框架将LLM与Pandas、Scikit-learn、SQL和本地数据库结合起来用于对时间序列数据进行数据处理和模型推荐调用。此外这些研究证明了LLM在时间序列故障诊断中的应用前景克服了现有方法的局限性。2.3. 时间序列数据prompt的开发Prompt是用户与LLM交互的关键界面。没有它LLM就无法理解用户的问题。Prompt包含两个组成部分一是指示LLM执行操作的指令二是明确用户期望LLM完成任务的具体问题。Teven et al.(2021)曾指出prompt包含了相当多的信息一个prompt可以相当于100个真实的数据样本。此外prompt在数据稀疏的垂直领域中提供了重要的支持即使在零样本场景中也表现出色这使得prompt技术成为使用LLM的重要组成部分。目前prompt设计方法分为少镜头(Madotto等人2021)、思维链prompt过程(CoT) (Wei等人2022)、零镜头思维链(Kojima等人2022)、自一致性(Wang等人2023)、知识prompt生成(X. Chen等人2022)、过程辅助语言(PAL) (Gao等人2023)、和ReAct (S. Yao等2023)。然而时间序列数据的prompt设计方法仍处于探索阶段。Li et al.(2022)提出了一种预测时间序列特征的prompt技术但使用语言驱动Bert模型预测时间序列的过程需要考虑时间序列数据对齐的问题。此外对未来信息的预测需要考虑领域知识以获得更好的结果。为了解决这些问题Xue等人(2023)开发了PromptCast方法该方法使用文本到文本的输入进行时间序列预测。然而这种方法在时间序列数据中遗漏了大量的信息。因此Sun等人(2024)提出了TEST方法该方法将时间序列数据转换为用频率、形状和值来描述的文本表示。这使得LLM能够处理和分析时间序列数据。本研究设计了一个时间序列故障诊断的prompt结构能够处理时间序列数据、模型检索、因果关系校正等应用结果证明了其有效性。3. 基于LLM的人在环任务驱动的钢铁冶金故障诊断2.0框架3.1. 基于LLM的任务驱动方法工业时间序列数据的传统故障诊断过程严重依赖人工干预。这包括对数据进行手动标注和预处理手动整合领域知识以纠正因果关系手动选择算法模型进行数据预测和异常检测以及手动整合领域知识以确定故障的原因和解决方案。在整个故障诊断过程中大量的人力和物理资源是必不可少的。然而大量的人工干预消耗大量人力物力且非专业人员难以有效处理故障问题。就及时性而言存在显著延迟难以实现快速诊断。即便是专业运维人员其知识储备有限可能难以应对新出现的问题。因此需要一种能够自动化任务处理、存储广泛领域知识、有效处理复杂任务的方法。LLM通过用户提问和回答促进快速解决问题充当用户和知识库之间的纽带。通过不断调整其角色以响应用户需求LLM捕获最相关的知识并为自动化工作流程做出贡献。数据和知识流的这种范式转变彻底改变了当前基于任务的流程。我们重新定义了基于LLM的任务驱动方法并将其与另外两种驱动方法(数据驱动和数据知识驱动)进行了比较。数据驱动的方法完全依赖数据来驱动整个过程而数据和知识驱动的方法则结合了领域知识来增强数据驱动的方法。相反基于LLM的任务驱动方法封装数据和知识来定义和分解用户提出的任务。由此产生的数据和知识流遵循任务流。这种方法采用了分层任务分解策略。首先它将复杂的任务解构成更直接、更易于管理的任务。然后将这些简单的任务分解成一系列连续的步骤。每一步都有明确的目标和预期输出以特定的顺序和逻辑关系联系起来形成一个完整的过程。这种方式实现了任务驱动的自主性提升了整个任务执行的精准度和效率。3.2. 提出的框架——基于大语言模型的工业时间序列故障诊断(LLM-TSFD)使用LLM进行人在环任务驱动的时间序列故障诊断的框架如图2所示。该模型在整个过程中依赖于两个主要输入:用户prompt和来自中间层的工业时间序列数据。用户prompt由一系列指令和问题组成。一旦经过人在环的LLM处理就可以输出期望的结果。在数据处理任务中将输入数据可视化预处理后的数据以CSV格式本地存储。在故障检测任务中输出的是修正后的因果关系。在故障诊断任务中模型推荐预测/检测模型并提供故障检测和预测的结果。在这个过程中LLM在知识库中搜索最相关的内容作为输出。当遇到新问题时LLM可以在网络中搜索找到合适的解决方案。图2使用LLM进行故障诊断的结构框架概述了利用LLM从输入到输出的整个过程。输入由用户需求和待处理的数据组成结合prompt形成一个完整的问题成为用户需求目标。用户需求被转移到LLM分解成单独的子任务并排序。任务根据它们的排序顺序依次执行。结果以两种形式提供给用户:定量反馈和二进制反馈。如果对结果不满意用户可以将其修改为标准答案并在收到满意的输出之前将其传递回LLM用于学习。最后将结果与第三方工具集成用于数据处理、因果发现和故障诊断等方面的应用。图2右侧展示了人机协同的大型语言模型LLM工作流程。该模型采用“循环”机制运作用户先设定目标通过LLM理解并分解任务再按分解后的步骤依次执行。任务完成后LLM会通过两种方式与用户互动首先是二元反馈机制LLM给出答案后用户可选择“满意”或“不满意”。若用户不满意LLM会修正答案或用户可修改问题引导LLM提供更精准的回应这种迭代过程能不断优化答案质量。其次是量化反馈机制LLM在执行任务时会查询数据库或向量数据库通过计算查询内容与知识库的相似度来确定置信度——低置信度表示匹配度较低高置信度则匹配度较高。当置信度较低时LLM会提示用户答案可能不够精确并建议修改问题以获取更详细描述。在整个任务驱动过程中人机持续互动各阶段都鼓励反馈。这种循环中的反馈机制有效提升了LLM的性能表现和可解释性。LLM的工作机制体现在任务分解和执行上。这个过程主要分为三个模块:数据处理、因果发现、故障诊断如图3所示。红色虚线框起的部分突出了LLM的工作部分。对于数据处理用户输入的问题经过令牌嵌入和位置嵌入来产生一个向量, 表示第个单词。LLM对向量进行处理生成答案。输入向量乘以模型得到的、和矩阵生成、和矩阵。这些矩阵被自关注机制用来计算相似度如式(1)所示。式(1)中的、和分别对应第个元素的查询向量、键向量和值向量。对查询向量()、键向量()和值向量()矩阵进行点积运算。接下来将注意力分数相乘并求和以获得上下文语义向量的注意力权重。完整的过程可以用下面的等式来表示:对于公式(2)中的每个元素和我们计算一个关注分数(, )它表示对的关注程度其中是关键向量的维度是缩放因子;式(3)中的注意力分数通过softmax函数得到的注意力权重;式(4)中的为值向量对其进行加权求和得到最终的上下文矩阵。上下文矩阵不仅包含当前单词的信息还包含上下文信息帮助模型理解不同段落中每个单词的含义。图3使用LLM进行任务处理的示意图:LLM是一种Transformer结构在注意力模块中以Q、K、V作为关键参数。LLM中任务处理的主要目标是对输入内容进行矢量化并在知识库中进行匹配以获得最相似的输出生成。有最高的相似度。这些片段被输入到LLM中使用自注意机制生成上下文向量类似于数据处理中生成答案的过程最终产生修改后的因果关系。LLM通过全连接层将上下文向量映射到高维空间随后将结果转换为词汇表大小的向量并通过softmax函数生成每个词的概率分布。输出代码完全符合用户需求。在因果发现过程中用户输入的因果关系被嵌入系统随后与存储专家知识的向量数据库内容进行相似性匹配从而确定相似度最高的相关语段。这些片段被输入到LLM中通过自注意力机制生成上下文向量其过程类似于数据处理中的答案生成机制最终产生修正后的因果关系。在故障诊断过程中用户查询会被嵌入向量并与包含SQL数据库表结构的向量数据库内容进行比对。通过识别最相似的向量片段LLM利用自注意力机制建立上下文语义相似性。最终根据用户需求生成SQL语句该SQL查询将作用于MySQL数据库以确定模型位置并向用户推荐合适模型。故障分析阶段中蓝色箭头标示文本嵌入后的处理流程完成编码后向量数据库会检索故障原因并找到最相似片段随后运用自注意力机制计算上下文向量最终生成故障原因诊断结果。4. LLM在工业时间序列数据故障诊断中的作用LLM是一个通用的模型因此找到其工业生产能力并推动行业向前发展至关重要。在与LLM的互动中不同的个人和背景可以以不同的方式解释内容。因此为LLM建立定义角色、场景和其他相关因素的规则对于增强模型的领域知识和改善结果是必要的。AutoGPT是ChatGPT的扩展允许用户定义角色并将其分配给GPT。相反MetaGPT分配特定的角色并提供详细的信息提高LLM对各自领域的理解。因此为LLM分配适当的角色对于有效学习工业时间序列数据至关重要。图4描述了FD2.0期间LLM的预期角色。这些角色如下:(1)数据管道管理器LLM执行自动化数据预处理、清洗、标记和可视化。这减少了运维人员在数据标注和处理上花费的时间和精力。(2)监督器LLM修正传统算法建立的因果关系。该任务通过将领域知识与逻辑推理相结合以实现对因果关系的精确判定。(3)控制器LLM调用算法中的模型通过用户建议进行故障预测与识别。针对实际生产问题LLM可推荐合适的机器学习模型并启动其本地执行。(4)决策器LLM通过理解检测过程并以运维人员可以理解的方式呈现模型的行为来检测异常结果。此外LLM概述了诊断结果供工作人员参考和理解。图4LLM在故障诊断2.0中的作用价值:对于数据处理LLM的作用类似于管道管理器。对于因果发现LLM扮演的是监督者的角色。最后对于故障诊断LLM同时承担控制器和决策者的角色以有效地诊断故障。下面将详细描述LLM所扮演的每一个角色。4.1. 管道管理器当前的行业领域模型依赖于数据质量。数据来源于多个传感器、设备和系统。尽管如此这些数据通常包含噪声、缺失值和异常值这可能会影响模型的准确性和可信度。此外工业数据具有独特的结构、格式和标准。为了有效地分析这种多样化的数据范围对这些异构数据源的分析进行集成和统一是至关重要的。传统上需要专业人员来处理、标记数据并将结果与相关专业知识相结合以实现高效的解释。此外特定的平台界面可能会限制用户偏好的灵活性。本研究提出使用LLM来处理时间序列数据。首先通过对话采用直接的数据分析减少了对人工设计数据分析技术的需求最大限度地减少了主观性提高了工作效率。其次使用对话以用户想要的格式输出数据图表有效地满足了特定的需求。LLM充当管道管理器监督数据流和处理。整体流程如图5所示。用户提供一个工业时间序列数据文件和一个任务问题作为管道管理器的输入。随后管道管理器调用LLM代码生成代理后者根据用户的输入生成所需的代码。然后执行生成的代码并返回一个输出结果。在需要进行数据预处理的情况下LLM生成处理后的CSV文件并将其保存在本地。同样如果需要数据可视化则生成可视化图表以满足用户的需求。在代码生成阶段导入pandas和sklearn库允许使用各自的函数进行数据处理。此外如果LLM检测到输入数据的维度发生了变化它将保存历史信息。因此依赖这些维度的模型被标记为“需要维护和更新”。图5LLM作为数据处理的管道管理器:LLM结合一些Python库进行数据处理生成完整的代码内容。在本地环境中执行代码然后生成所需的答案、CSV文件、图像等。考虑到用户的任务需求LLM会自动生成适当的代码进行数据分析。为了简化处理操作引入了相关的第三方库从而自主生成用户期望的结果。4.2. 监督器在完成数据处理后需根据具体工程问题和数据特征选择合适的因果推断方法或模型进行因果发现。一旦通过模型提取了因果关系就需要对结果进行评估和验证以确保其可靠性和适用性。传统方法通常需要进行交叉验证、敏感性分析等一系列操作进行验证。此外与领域经验协作的讨论和验证是不可或缺的。LLM具有一定的推理能力。当提供模型推理结果、专家知识和需求时LLM可以充当监督器将其推理与模型输出相结合对因果关系进行判断和验证。通过将其推理结果与模型输出相结合LLM可以对因果关系进行纠正和细化从而得出更准确的结论。由于传统模型缺乏领域知识因果关系的发现表现出一定的偏差。要学习真正的关系需要相关的领域知识来指导模型。本研究建议LLM可以充当监督器如图6所示。利用LLM的推理能力修改原来的因果发现增强了因果关系的发现能力。用户输入从传统算法模型推导出的因果关系在进入LLM后结合领域知识对其进行修改推导出更合理的因果关系。最后将因果关系的输出表示为因果图。图6LLM作为因果纠错的监督器:用户输入初始的因果关系结合专家知识库对因果关系进行纠错最后输出纠错的结果。在这个过程中用户的初始关系被嵌入到向量中并与存储在向量数据库中的向量进行相似性比较。更相似的片段被输入到自关注机制中生成符合用户期望的响应。4.3. 控制器在企业中模型通常部署在本地环境中以确保隐私和安全。当需要进行预测性维护、异常检测或设备剩余寿命预测时必须选择合适的模型。如果数据状态保持不变(即没有出现新的传感器或额外的维度)则可以使用预训练的模型进行预测。然而在现实场景中传入的数据是不断更新的因此必须不断维护和更新模型以确保其有效性和对不断变化的数据的适应性。本研究提出使用LLM作为模型控制器帮助用户选择模型并提供模型是否需要更新的反馈如图7所示。用户将问题和时间序列数据输入到LLM中LLM随后分成两条处理路径。首先它比较输入的时间序列数据文件以检查是否有新的传感器或维度。如果LLM检测到任何新的维度则标记相关模型并向开发人员提及模型需要更新。其次如果没有新的维度LLM会根据用户的需求从算法库中推荐一个模型并对输入文件进行处理生成所需的输出。图7LLM作为模型调度过程的控制器:用户向系统提供需要处理的需求和数据。然后LLM算法将此输入与SQL数据库进行匹配以推荐匹配度最高的模型。随后被推荐的模型输出故障检测/预测结果。在这个过程中LLM作为一个控制器管理从算法库中选择模型同时评估输入数据的维数。这种方法可以快速选择模型进行处理和支持模型更新以确保准确的预测结果。4.4. 决策器工业中机械设备故障诊断的可解释性往往较差。数据驱动的模型使得用户很难理解故障的具体原因和解决方案。同样知识驱动模型表现出不完整的知识表示(例如知识图和专家系统)使得难以处理新问题。本文提出使用LLM作为用户需求和处理解决方案之间的沟通桥梁。LLM可以通过理解用户需求、采用网络化搜索、调用模型以及连接数据库来方便用户理解来找到最优解决方案。本研究提出LLM作为具有本地知识库和网络搜索的决策者为诊断故障的原因提供可读的解释如图8所示。首先将用户的问题嵌入并与存储在向量数据库中的领域故障知识进行匹配。如果存在相似度相对较高的片段则生成诊断结果。在相似度较低的情况下进行网络查询获取问题的相关信息。然后将答案存储在向量数据库中补充现有知识并能够为用户生成所需的结果。图8LLM作为决策者进行决策:用户输入一个经过编码并与向量数据库中的内容匹配的需求。然后输出最相似的内容。如果没有匹配系统搜索网络并将任何找到的内容作为新知识添加到向量数据库中。4.5. 基于工业时间序列数据的故障诊断prompt的设计过程LLM中的推理过程包括三个主要组成部分:输入、推理和输出。Prompt还作为一种引导机制在LLM中指导整个推理过程。在不设计prompt的情况下当用户输入问题时模型预测文本的概率可以表示为:Prompt的添加可以看作是提供了额外的约束。如果prompt设置为y则模型预测文本的概率为。这表明在指令条件下通过限制用户输入问题模型可以为用户生成期望的结果。从本质上讲prompt是用来将原始概率空间缩小到与其相关联的子空间。因此预测概率可以表示为:在LLM中prompt的添加通过提供条件约束来修改概率空间这些条件约束引导模型生成条件相关的输出。这个过程增强了语言模型的响应与用户期望之间的一致性从而提高了其性能和泛化能力。此外准确的prompt对于使LLM有效地发挥作用并产生令人满意的结果起着至关重要的作用。然而重要的是要注意LLM是一个广义模型缺乏特定领域的理解。他们需要在一个知识领域内的指导才能知道如何解决问题。为了解决行业内时间序列数据中的故障诊断问题本文提出了一个prompt结构来指导任务驱动的开发。Prompt设计结构如式(7)所示。在式(7)中在式(1)的基础上添加约束约束内容记为即本研究提出的prompt结构。prompt由七个核心组件组成:时间()、角色()、输入形式()、任务分解()、输出形式()、推理形式()和领域知识()。角色®是由本研究提出的四个角色组成的四元数结构:。具体来说代表时间序列数据分析专家作为时间序列因果关系发现的修饰语作为时间序列故障诊断模型推荐专家承担时间序列故障诊断决策专家的角色。在式(7)中表示便于记录的当前日期。和为LLM提供具体的角色和相关的行业领域知识。这使得LLM能够了解自己处于什么样的场景扮演什么样的角色接下来需要完成什么样的任务。一组定义良好的工业场景和领域角色为LLM提供了对其工作的更清晰的理解类似于人类工作工程。这使得模型能够理解其在公司中的位置并预测下一步。接下来需要将LLM配置为接受形式的输入和形式的输出。为了根据用户的任务生成代码可能需要将用户上传的文件处理成代码可以理解的格式。为了增强LLM的数据处理能力可以集成Pandas等工具将输入转换为DataFrame格式进行程序化处理从而提高数据处理的效率。考虑到用户的任务需求有时不明确自动化任务分解就变得很有必要。这个过程使LLM能够逐步分解和理解用户的目的从而达到预期的结果。此外在推理过程中设置的方法如下:LLM逐渐一步一步地思考最终导致更好的结果生成。LLM基于上述框架进行操作然后输出结果。展示了LLM对数据进行分析和处理的过程,如图9所示。第一步包括引入必要的工具包然后确定分析过程的输入。最后分解并执行用户的任务需求。在本地执行LLM生成的代码时同时返回对运行结果的解释以方便用户理解。表2展示了时间序列故障诊断prompt设计的示例体系结构。图9以数据处理为例生成prompt LLM代码的过程:在prompt的指导下对用户的需求进行分析并分解为子需求。LLM对这些子需求进行相应的优先级排序和处理。如果问题与数据处理有关LLM的最终输出将是处理此类数据的相应代码。表2时间序列数据故障诊断prompt设计框架5. 案例研究钢铁冶金是一个重要的工业领域严重依赖于高效的设备来保持生产力和产品质量。目前位于中国宝山的一家钢铁冶炼企业在处理时间序列数据故障诊断方面面临挑战特别是在资源有效利用和工作效率方面。因此迫切需要一种智能和自主的方法来增强开发周期、维护后流程和用户可读性。5.1. 环境下框架的建立针对FD1.0和FD1.5带来的问题本文提出了LLM任务驱动方法在钢铁冶金领域的故障诊断应用。图10给出了一个连铸设备故障诊断场景。图10基于LLM的工业时间序列数据故障诊断平台:实施LLM不仅减少了人力和物力资源而且缩短了平台的开发周期。此外它有效地利用经验知识来评估因果关系的准确性和所选模型的适当性以促进决策过程。平台根据LLM建立的角色进行划分。最终的故障诊断模块包括两个关键组件:故障模型的选择和诊断信息的问答涵盖了分配给LLM的两个角色。LLM系统的第一个模块作为数据管道管理器。用户上传一个CSV文件其中包含机械设备上某个传感器在特定时间段的数据并指定要处理的任务以获得相应的输出。传统方法需要人工经验来设计数据处理方法需要领域工作人员了解标记数据的相关上下限限值与此相反LLM可以取代这些任务。用户将任务输入到LLM中然后LLM将其分解为子任务提供调优代码的反馈在本地执行根据此经验添加相关的领域经验进行标记并允许用户确定他们想要的输出格式。用户可以通过告知LLM他们喜欢的显示类型将任何格式的输入数据可视化。此外使用历史信息作为参考点LLM确定当前输入文件中是否存在新的维度数据;如果存在后续模型将相应地进行标记并发出有关维护或更新的通知。图11显示了使用LLM可视化显示功能在钢铁冶金领域执行处理设备相关CSV文件相关操作时的用户对话过程。如果用户对LLM的初始输出产生的结果不满意他们可以提供反馈这将促使LLM进一步响应直到获得满意的结果。图11使用LLM进行数据处理操作的用户对话流程:一旦用户输入问题并上传文件LLM将生成相应的响应以及处理后的CSV文件或图表。系统的第二个模块是因果发现其中LLM作为传感器数据中变量之间因果关系的校正器。最初用户使用常见的因果分析算法建立变量之间的基本关系。然后将这些算法的输出馈送到LLM中LLM结合从规则库中学习到的领域知识来确定是否有任何关系需要纠正。虽然传统方法要求用户拥有或搜索相关知识才能做出因果判断但在采用LLM后允许用自动化流程取代领域专家。图12说明了如何使用LLM通过二进制和定量用户反馈机制执行因果关系校正操作。在二元反馈模式下用户可以通过点击“同意”或“不同意”来表示他们对LLM答案的满意程度。在定量反馈模式下LLM根据与向量数据库中的匹配项的相似度得分来评估置信度;如果置信度分数太低则提供主动反馈以prompt用户进行更详细的问题描述。图12使用LLM的因果关系校正操作过程:LLM通过使用二进制和定量反馈机制对其输入的因果关系进行校正。前者提供答案是否正确的信息而后者则通知LLM它提供了不充分的响应需要用户的额外输入。第三个模块是故障诊断包括LLM控制器和决策器。在传统方法中专业操作员设计一个模型并提供一个描述供用户选择包括每次使用需要修改的输入和参数。然而使用LLM用户只需要描述任务LLM将他们的描述与本地算法库中最合适的模型相匹配。然后用户选择输入数据通过模型接口运行然后获得所需的结果作为输出。图13说明了这个过程。故障诊断模块包括故障检测模型推荐、故障预测模型推荐和故障诊断建议三个子模块。在提出检测或预测故障的模型时LLM检索数据库根据用户需求推荐合适的模型。如果用户对推荐的结果不满意他们可以提供二进制反馈(满意/不满意)。在故障诊断过程中LLM在数据库中搜索可能提供答案的相似片段。如果没有找到则表明用户问题与知识库内容之间的相似性较低要求提供更详细的问题描述。此外每个答案有四个对话选项复制、引用、查询和评估。“复制”允许用户将答案复制到剪贴板上。通过选择“引用”用户可以跨长度进行诊断。通过从上下文中选择一个特定的回应引用它然后提出一个问题引用和查询可以传输到LLM中进行进一步的分析和响应。图13在引用LLM之前的回复或提供二进制反馈(“评估”)时显示了这些选项以及网络搜索功能(“查询”)。图13使用LLM的故障诊断过程:用户向LLM输入需求随后LLM从其本地存储库中推荐最合适的模型。此外通过LLM的知识库或通过互联网搜索也可以查询故障原因。5.2. LLM-TSFD结果讨论5.2.1. LLM-TSFD与未使用LLM的钢铁冶金故障诊断方法的比较本文将提出的方法与不使用LLM的方法进行了比较。具体而言开发了一个用于钢铁冶金企业故障诊断的平台。该平台基于深度学习方法不包含LLM如图14所示。该平台利用预训练的深度学习模型进行故障分析。用户选择合适的模型模型检测异常。此外用户可以选择预测模型该模型预测未来时间窗内的值并根据预定义的规则检测异常(如图14所示)。一般来说工业中用于故障诊断和预测的深度学习模型通常是监督式或半监督式学习模型。这些模型需要手动标记数据以实现精确的检测和预测。然而在企业内部不易访问标记数据的情况下无监督学习可能是模型训练的唯一可行替代方案。此外新的数据模式经常出现在工业时间序列数据中而这些数据不能单独从历史数据中学习。因此需要提高无监督模型的能力。对数据标记挑战的一个潜在解决方案是利用LLM它可以在时间和效率方面提供优势。通过依赖LLM而不是手工标记过程组织可以简化他们的工作流程并以更少的努力获得更准确的结果。深度学习模型需要标记数据进行训练。考虑到工业时间序列数据的复杂性增强基于高度相关数据的多维异常检测至关重要。操作员可以使用因果算法来识别每个维度之间的因果关系。然而仅仅依靠这些算法可能会导致错误的关系。为了获得更准确的因果关系将LLM与专家知识库合并可以帮助做出更正确的判断。图14(a)示出了平台的模型配置模块。后端为十个预训练模型提供接口用于异常检测和预测。为了有效地检测异常用户必须选择合适的深度学习模型。然而由于他们不知道哪种模型会产生更好的结果他们只能通过不断的试错来获得最优的结果。图15(a)描述了LLM如何根据用户输入要求推荐算法。相比之下图14(b)的故障线图并没有为用户提供可读的信息。图15(b)展示了LLM如何通过将流行场景与领域专家知识相结合来解释警告结果从而增强可读性。图14基于深度学习的钢铁冶金行业预警平台(FD1.0/1.5)图15基于深度学习的钢铁冶金行业预警平台(FD2.0)本文从可读性、自主性和泛化三个方面对未使用LLM的FD1.0或FD1.5中的故障诊断方法与FD2.0中使用LLM的方法进行比较结果如表3所示。根据表3“不使用LLM”是指仅使用深度学习方法进行故障诊断而“LLM- TSFD”是指本文提出的使用LLM进行故障诊断的方法。管道管理器、监督器和控制器等角色对可读性要求不高因此本文不考虑其对用户的可读性。但是决策器需要告知用户检测到的故障、原因、解决方案和措施。当操作员依赖基于深度学习的故障诊断方法而没有LLM时用户缺乏可读性。相反当与知识库相结合时LLM可以提供可理解的故障信息。LLM还增强了方法的自主性消除了需要大量人力或物力来重写程序代码的需要因为它可以基于LLM进行任务驱动。这种概括允许其应用于各种场景如本文中讨论的管道管理器、控制器和决策器。表3使用LLM与不使用LLM异常诊断结果的比较5.2.2. FD 1.0、FD 1.5、FD2.0的比较本文对FD 1.0、FD 1.5和FD 2.0方法进行了对比分析。数据集来源于中国上海某钢铁冶金企业。培训和测试数据来源于工业连铸设备。研究主要集中在导辊电流和结晶器截面的数据上。导辊电流主要包括S1至S16的上辊电流和S8至S16的下辊电流。结晶器截面的数据包括宽面的内弧出口流量、宽面的外弧出口流量、窄面的右侧出口流量、窄面的左侧出口流量以及结晶器的液位。该数据集包含85000个条目其中80%用于训练集剩下的20%用于测试集。训练和测试在8个A100 GPU上进行实验结果如表4和表5所示。表4基于连铸设备导辊电流的FD1.0-FD1.5-FD2.0异常检测结果比较表5基于连铸设备结晶器截面的FD1.0-FD1.5-FD2.0异常检测结果比较本文使用精确率, 召回率和F1分数作为评价指标来综合评价和比较所采用方法的性能。此外本文还将所提出的方法与11种公开可用的时间序列异常检测方法进行了比较:Agglomerative Clustering (Müllner, 2011), Long Short-Term Memory (LSTM) (Karim et al., 2018), Temporal Convolutional Networks (TCN) (Y. He Zhao, 2019), Mamba (H. He et al., 2024), Transfomer (Wen et al., 2023), iTransformer (Liu et al., 2024), Kmeans rules (Budiarto et al., 2019), Autoencoder expert system (Valtierra-Rodriguez et al., 2023), Knowledge-Distillation (Pol et al., 2023), Time-GPT (Garza et al., 2024), and Prompter-GPT (Alnegheimish et al., 2024)。这些指标从不同的角度评估了方法的性能提供了更全面、更精确的比较结果。精确率:精确率衡量正确预测的异常在所有被预测为异常的样本中所占的比例。它是一个统计度量重点关注被分类器分类为正的数据。召回率:召回率衡量的是模型正确识别的实际异常的比例。F1分数:考虑到预测的准确性和完整性F1分数是精确率和召回率的调和平均值。其最大值为1最小值为0值越高表示模型性能越好。其中TP表示正确分类的阳性样本数量FP表示错误分类的阴性样本数量FN表示错误分类的阳性样本数量TN表示正确分类的阴性样本数量。表4将本文方法与故障诊断的FD1.0、FD1.5和FD2.0时期的几种典型模型的异常检测结果进行了比较。在每个阶段异常检测结果最好的模型以粗体突出显示。在FD1.0阶段最优模型为TCN在FD1.5阶段最佳性能模型为K-means rules;在FD2.0阶段该方法实现最优。此外本文还将本文提出的方法与上述两种方法在精确率、召回率和F1分数方面进行了比较。结果表明我们的方法在利用连铸设备中各种导辊的电流值进行异常检测方面优于其他两种方法。表5主要分析了来自连铸设备结晶器部分的数据并对FD1.0、FD1.5和FD2.0阶段的几个模型进行了评估。本文使用精度、召回率和F1分数作为比较指标。Transformer模型、知识蒸馏模型和提出的方法以粗体突出显示表明性能更好。与其他两种方法相比本文提出的方法在检测阳性样本的精度较高的同时保持了较高的召回率。F1分数也是最高的证明了所提方法具有优越的检测性能。5.2.3. 消融实验本文比较了两个数据集上11个公开可用模型的平均F1分数如图16所示。散点图显示每个模型的平均F1分数颜色越深表示值越高。Prompter-GPT模型平均得分最高可作为消融实验的基线模型。此外当使用大型语言模型作为故障检测的决策器时我们提供了对结果的解释性文本分析这与管道管理器监督器和控制器模块的评估方法不同。因此本节的消融实验主要关注管道管理器、监督器和控制器模块在精确率、召回率和F1分数方面的性能以评估它们在基于从连铸设备收集的数据的故障检测中的有效性。图16本文评估了11个模型在不同数据集上的Precision、Recall和F1分数。图中渐变的圆圈表示在两个数据集上计算的每个模型的平均F1分数。颜色越深表示数值越高。Prompter-GPT模型平均F1分数最高可作为消融实验的基线模型。本文将管道管理器、监督器和控制器模块引入基线模型并评估其有效性如表6和表7所示。表6给出了使用来自连铸设备的导辊电流数据进行消融实验的结果。从表6中可以明显看出将管道管理器和监督器模块添加到基线模型中可以提高精确率、召回率和F1分数从而证实了这些模块的有效性。控制器模块利用了大型语言模型推荐的模型取代了目前的基线模型。当引入控制器模块时与仅包含管道管理器和主管模块的基线模型相比有显著的改进。与基线模型相比所提出的方法在精确率、召回率和F1分数方面都有提高证明了所提出模块的有效性。表7显示了使用连铸设备结晶器部分数据进行消融实验的结果。当基线模型包含管道管理器和监督器模块时精确率召回率和F1分数得到改善。此外控制器和管道管理器模块的组合优于仅使用管道管理器模块的基线模型。然而控制器和主管模块的组合与只有主管模块的基线模型相比性能略差。然而同时使用这三个模块的性能要优于基线模型、带有管道管理器模块的基线模型和带有主管模块的基线模型。这证明了所提的管道管理器、监督器和控制器模块的有效性。表6基于连铸设备导辊电流数据的消融实验对比表7基于连铸设备结晶器段数据的消融实验对比5.2.4. 在不使用prompt的情况下LLM- TSFD和LLM方法的比较本文采用决策制定者来为用户查询提供可解释的响应并在钢铁冶金领域提出了一个验证数据集该数据集包含500个由用户生成的问题和答案构建的问答对。数据集仅包含文本描述不包含任何伴随的CSV文件或图像。它涵盖了数据处理、因果关系修改、模型推荐结果、故障原因诊断结果及相关意见等多个方面。为了评估我们提出的使用提示LLM- TSFD的方法的有效性我们将其与四种公开可用的LLMGLM-3、ernie Bot3.5、GPT3.5和GPT4.0的无提示方法进行了比较。使用四个指标即bleu-4, rouge-1, rouge-2, and rouge-l来衡量性能并将结果展示在表8中。表8使用所提的prompt(LLM-TSFD)与不使用所提的prompt(无prompt)在四个不同指标下的结果比较首先简要介绍本研究采用的四个指标bleu-4分数用于评估四元数案例中预测答案与标准答案的相似程度数值越高表明预测结果与参考文本越吻合rouge-1指标则专门衡量预测结果与参考答案之间的词汇重叠程度。评估预测与参考文本的单个单词或短语的匹配程度。度量值越高表明结果与参考文本之间的相似性越强。rouge-2度量量化了预测结果与参考文本中两个连续的单词或短语之间的一致程度。分数越高表示与手动注释的相似度越高。被称为rouge-l的度量量化了预测结果与参考文本中发现的最长公共子序列之间的重叠程度。该指标得分越高表明性能越好。表8说明了在所有四个公开可用的LLM中所提的prompt方法优于无prompt方法的性能。为了更直观地观察表8的内容我们用三维直方图(图17)对无prompt法和LLM-TSFD法进行了对比。其中蓝色条表示提出的LLM-TSFD方法橙色条表示无prompt方法。图17清楚地显示在rleu-4、rouge-1、rouge-2和rouge-1指标区域LLM-TSFD条的高度始终超过无prompt方法的高度表明我们提出的模型生成的答案质量更好。图17在三维柱状图中提出的方法与无prompt方法在四个指标下的比较6. 讨论FD1.0的特点是采用数据驱动的方法依靠手动和自动化的方法来处理来自传感器的时间序列数据以供人类决策。FD1.5的后续发展以更自动化的方式整合了数据和知识使处理各种类型的数据成为可能并增强了人类对模型输出的理解。随着LLM的出现FD2.0时期现在以用户的任务分解流程为主导。模型具备自主赋能和自反馈调整能力在处理大规模复杂问题和多模态数据处理任务的同时节省了大量资源。此外LLM增强了人类对结果的可读性从而在一定程度上提高了理解能力。尽管与传统的LLM模型相比LLM在自主性方面有了显著的进步但仍然面临着诸如高资源环境要求和对幻觉的敏感性等挑战这些都需要在未来的研究中进一步研究。目前所提出的方法主要集中在单一数据源上特别是CSV文件。在现实场景中有必要考虑不同类型的数据源。因此未来的研究将探索如何处理多模态工业时间序列数据。此外本研究采用的方法主要采用公开可用的通用模型。这些模型缺乏与工业领域相关的特定能力。因此未来的研究将构建钢铁冶金领域数据集并开发具有鲜明工业领域特征的大型语言模型。考虑到工程师的专业水平不同用户对底层算法的理解程度也不同。本文主要侧重于利用LLM结合算法库的内容来帮助不同技能水平的用户选择合适的模型。此外考虑到LLM固有的推理能力我们的目标是在未来的工作中充分利用这些能力进行全面的模型推荐。这包括推荐更新模型超参数以更好地适应新的输入变量以及其他增强功能。在论文发表后我们将通过GitHub存储库提供相关的研究代码。7. 结论LLM的出现为解决钢铁冶金中的故障诊断挑战提供了重要机遇促进了该领域的进步和发展。依靠LLM的数据处理和分析能力可以获得对冶金过程中潜在故障的准确预测和识别。通过分析大规模数据LLM可以帮助工程师及时识别潜在故障点使他们能够在生产中断或质量问题出现之前采取纠正措施。这种组合为故障诊断提供了新的工具从而提高了可靠性和效率。提出了一种基于LLM的的人在环任务驱动时间序列数据故障诊断方法。利用LLM的生成能力将任务分解为预期结果同时通过人机反馈协同回路将生成的结果反馈给用户进行修改。我们设计了一个组合推理prompt框架应用于工业时间序列故障诊断处理能够调整和指导LLM的行为和输出结果。在钢铁冶金故障诊断中我们考虑了LLM的四个主要角色:数据处理过程中的管道管理器;因果纠正期间的监督者;模型推荐期间的控制器;和故障诊断阶段的决策者。未来的研究将集中在如何在保护工业隐私的同时最好地应用LLM来维护数据安全。此外利用LLM的生成能力根据用户的期望生成仿真数据也是未来的重点任务之一。此外我们计划利用LLM的推理能力为不同专业水平的用户推荐和优化模型包括超参数调整以适应不断变化的输入需求。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】