我也要投放广告丰台网站关键词优化-晋城市网站建设公司-Seo优化

我也要投放广告,丰台网站关键词优化,中铁建设集团门户登录网,wordpress主题添加最近#xff0c;我听到“LLM as a Judge”这个术语的频率比以往任何时候都高。虽然这可能是因为我从事LLM评测领域的工作#xff0c;但LLM评委正在接管#xff0c;因为很明显#xff0c;与速度慢、成本高且劳动密集型的人类评测者相比#xff0c;它是LLM评测的更好替代方案…最近我听到“LLM as a Judge”这个术语的频率比以往任何时候都高。虽然这可能是因为我从事LLM评测领域的工作但LLM评委正在接管因为很明显与速度慢、成本高且劳动密集型的人类评测者相比它是LLM评测的更好替代方案。然而LLM 评委确实存在局限不加谨慎地使用只会带来挫败。本文将分享我目前所知的关于利用 LLM 评委进行 LLM系统评测的一切要点包括什么是作为评委的 LLM以及它为何如此受欢迎。作为评判备选方案以及它们为何不尽如人意。评委的局限性及其应对方法。通过 DeepEval https://github.com/confident-ai/deepeval在LLM评测指标中使用LLM评委进行LLM评测。等不及了我也是。更新你现在还可以在 DeepEval 中使用LLM-as-a-judge 进行确定性LLM指标评测[1]一、“LLM 作为评委”具体是什么意思LLM-as-a-Judge 是一个强大的解决方案它利用 LLMs 根据你选择的任何特定标准来评测 LLM 的响应这意味着使用 LLMs 执行 LLM系统评测。正如“使用 MT-Bench 和 Chatbot Arena 评判LLM-as-a-Judge”论文中所介绍的那样作为昂贵且耗时的人工评测的替代方案三种类型的LLM作为评委包括单输出评分无参考向评委LLM提供评分标准作为评判依据并提示其根据多种因素为LLM的响应分配分数这些因素包括输入到LLM系统的内容、RAG 管道中的检索上下文等。单输出评分带参考与上述相同但有时LLM评委可能会不稳定。提供一个参考、理想或预期输出有助于评委LLM返回一致的分数。成对比较给定两个LLM生成的输出评委LLM将根据输入选择哪一个生成结果更好。这还需要一个自定义标准来确定什么是“更好”。概念很简单为LLM提供一个评测标准让它为你完成评分工作。但具体如何以及在何处使用LLMs来评判LLM的回应呢使用LLM 评委作为指标评分者“LLM 作为评委”可用于增强LLM评测方法是将其作为LLM评测指标的评分者。要开始使用只需为你选择的LLM提供一个清晰简洁的评测标准或评分细则并利用它根据各种参数如你的LLM的输入和生成输出计算一个范围在 0 到 1 之间的指标分数。以下是一个向LLM评委评测摘要连贯性的示例提示prompt You will be given one summary (LLM output) written for a news article. Your task is to rate the summary on how coherent it is to the original text (input). Original Text:{input}Summary:{llm_output}Score:通过收集这些指标分数你可以创建一套全面的LLM评测结果用于基准测试、评测甚至回归测试LLM系统。使用LLMs作为评分器来评测其他LLMs的LLM评价指标趋势日益增长因为替代方案根本无法胜任。LLM评测对于量化和识别改进LLM系统性能的领域至关重要但人工评测速度缓慢而 BERT 和 ROUGE 等传统评测方法因忽视LLM生成文本中的深层语义而未能达标。试想我们怎能期待传统且规模小得多的 NLP 模型不仅能有效评判开放式生成文本的段落还能处理 Markdown 或 JSON 等格式的内容呢二、真的有效吗简而言之是的关于LLM作为评委的研究参见上述论文表明它与人类判断的一致性甚至超过了人类彼此之间的一致性。而且不你并不需要你的评测模型比你用于应用程序的那个更好。一开始使用LLM来评测另一个LLM生成的文本可能看起来有违直觉。如果模型正在产生输出为什么它会更擅长评判或发现错误呢关键在于任务的分离。我们不再要求LLM重新执行其工作而是使用不同的提示——甚至完全不同的模型——专门用于评测。这种方法能激活独特的能力通常将任务简化为一个分类问题评测质量、连贯性或正确性。发现问题往往比一开始就避免问题更容易因为评测比生成更简单——LLM评委只需评测已产生的内容比如检查相关性而无需改进答案。除了评测提示从根本上不同之外还有许多技术可以提高LLM作为评委的准确性比如思维链提示CoT prompting和小样本学习few-shot learning我们稍后会详细讨论。我们还发现将LLM评委的输出限制在极端值上能使度量分数高度确定性。在 DeepEval 中我们允许用户构建决策树——建模为有向无环图DAG其中节点是LLM评委边代表决策——以创建高度确定性的评测指标精确符合他们的标准。你可以在“DAG”部分了解更多相关内容。小插曲在构建 DeepEval 的过程中我实际上是通过艰难的方式才了解到作为评判标准的LLM效果要好得多。最初我依赖的是传统的非LLM指标如 ROUGE 和 BLEU它们基于词汇重叠来比较文本。但我很快发现用户抱怨这些分数即使对简单句子也缺乏准确性。更不用说其解释性的缺失了。三、LLM评判标准的替代方案这一部分本不该存在但以下是两种不使用LLMs进行LLM评测的流行替代方案以及我个人认为它们被错误偏好的常见原因人工评测常被视为黄金标准因其能理解上下文和细微差别。然而这种方法耗时、昂贵且可能因主观解读而不一致。现实中的LLM应用每月生成约 10 万条响应并不罕见。我不知道你怎么想但我平均需要 45 秒来阅读几段文字并做出判断。这样算下来每月大约需要 450 万秒即连续约 52 天——不包含午餐休息时间——来评测每一条生成的LLM响应。传统自然语言处理评测方法诸如 BERT 和 ROUGE 等传统评分工具确实出色——它们快速、经济且可靠。然而正如我在之前一篇比较各类LLM评测指标评分工具的文章中指出的这些方法存在两大致命缺陷它们必须依赖参考文本来对比生成的LLM输出结果并且由于忽视了LLM生成输出中的语义这些语义常带有主观解读且呈现形式多样复杂如 JSON 格式其准确性极低。考虑到生产环境中的LLM输出往往是开放式的、无参考文本的传统评测方法几乎难以胜任。此外无论是人工还是传统的自然语言处理评测方法都缺乏可解释性即无法说明其给出的评分依据。因此LLM 作为评委是目前最佳的选择。它们具有可扩展性可以通过微调或提示工程来减少偏见相对快速且成本低廉尽管这取决于你对比的评测方法最重要的是能够理解极其复杂的生成文本无论内容本身及其格式如何。考虑到这一点让我们来看看LLM评委的有效性及其在LLM评测中的优缺点。三、LLMs比你想象的更爱评判那么问题来了LLM评委的准确性如何毕竟LLMs是概率模型仍然容易产生幻觉对吧GPT-4 在成对和单输出评分上的一致性表明其拥有相对稳定的内部评测标准这种稳定性还能通过思维链CoT提示进一步得到提升。四、G-EvalG-Eval 是一个利用 CoT 提示框架来稳定并使LLM评委在指标分数计算上更可靠和准确的系统向下滚动了解更多关于 CoT 的信息。G-Eval 算法G-Eval 首先根据原始评测标准生成一系列评测步骤并通过填表范式这不过是 G-Eval 需要多条信息才能工作的另一种说法利用这些生成的步骤来确定最终分数。例如使用 G-Eval 评测LLM输出的连贯性时需构建一个包含待评测文本及标准的提示来生成评测步骤随后借助LLM基于这些步骤输出 1 至 5 分的评分LLM Evaluation Metrics: The Ultimate LLM Evaluation Guide - Confident AI[2]。正如你稍后将了解到的G-Eval 中提出的技术实际上与我们用于改进LLM判断的各种技术相吻合。你可以通过 DeepEval开源LLM评测框架立即用几行代码实现 G-Eval。[3]pip install deepeval plaintext from deepeval.test_case import LLMTestCase, LLMTestCaseParamsfrom deepeval.metrics import GEvaltest_case LLMTestCase(inputinput to your LLM, actual_outputyour LLM output)coherence_metric GEval( nameCoherence, criteriaCoherence - the collective quality of all sentences in the actual output, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT],)coherence_metric.measure(test_case)print(coherence_metric.score, coherence_metric.reason)有向无环图DAGG-Eval 存在一个问题因为它不是确定性的。这意味着对于使用LLM作为评判指标的基准测试你不能完全信任它。这并不是说 G-Eval 没有用处事实上它在需要主观判断的任务上表现出色比如连贯性、相似性、答案相关性等。但当你有一个明确的标准时比如文本摘要用例的格式正确性你就需要确定性。你可以通过将评测构建为有向无环图DAG来利用LLMs实现这一点。在这种方法中每个节点代表一个LLM判断处理特定决策而边则定义了决策间的逻辑流向。通过将LLM交互分解为更细粒度的原子单元你减少了模糊性并确保与期望保持一致。分解得越细致错位的风险就越小。DAG 架构对于上述评测会议摘要用例的 DAG 图以下是 DeepEval 中的对应代码可在此处找到 DAG 的文档[4]from deepeval.test_case import LLMTestCasefrom deepeval.metrics.dag import ( DeepAcyclicGraph, TaskNode, BinaryJudgementNode, NonBinaryJudgementNode, VerdictNode,)from deepeval.metrics import DAGMetriccorrect_order_node NonBinaryJudgementNode( criteriaAre the summary headings in the correct order: intro body conclusion?, children[ VerdictNode(verdictYes, score10), VerdictNode(verdictTwo are out of order, score4), VerdictNode(verdictAll out of order, score2), ],)correct_headings_node BinaryJudgementNode( criteriaDoes the summary headings contain all three: intro, body, and conclusion?, children[ VerdictNode(verdictFalse, score0), VerdictNode(verdictTrue, childcorrect_order_node), ],)extract_headings_node TaskNode( instructionsExtract all headings in actual_output, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT], output_labelSummary headings, children[correct_headings_node, correct_order_node],)# create the DAGdag DeepAcyclicGraph(root_nodes[extract_headings_node])# create the metricformat_correctness DAGMetric(nameFormat Correctness, dagdag)# create a test casetest_case LLMTestCase(inputyour-original-text, actual_outputyour-summary)# evaluateformat_correctness.measure(test_case)print(format_correctness.score, format_correctness.reason)不过我并不建议一开始就使用 DAG仅仅因为它使用起来较为困难而 G-Eval 几乎无需任何设置时间。你应该先尝试 G-Eval再逐步迁移到像 DAG 这样更精细的技术。实际上如果你想在运行 G-Eval 之前用 DAG 筛选出某些特定要求如格式正确性也是可以做到的。本文末尾有一个完整示例其中我们将 G-Eval 作为叶节点使用而非返回一个硬编码的分数。五、LLMs 也并非完美无缺无法下定决心他们的评分是非确定性的这意味着对于正在评测的给定LLM输出分数可能会因一天中的不同时间而有所变化。如果你想完全依赖这些评分就需要一种像 DAG 这样的好方法来使它们变得确定。自恋偏差研究表明大型语言模型可能更倾向于青睐自身生成的答案。使用“可能”一词是因为研究发现尽管 GPT-4 和 Claude-v1 分别以 10%和 25%更高的胜率偏爱自身输出它们也会偏好其他模型而 GPT-3.5 则未表现出自我偏好。多即是多人类都熟知“少即是多”的说法但LLM评委们往往偏好更冗长的文本而非简洁的表达。这在LLM评测中成为问题因为LLM计算得出的评分可能无法准确反映LLM生成文本的质量。不太精细的评分标准LLMs在做出高层次决策时可以是可靠的评委例如判断二元事实正确性或在简单的 1-5 分制上对生成文本进行评分。然而随着评分尺度变得更加详细间隔更细LLMs更可能产生随意分数使其判断的可靠性降低更容易受到随机性的影响。位置偏差当使用LLM评委进行成对比较时研究表明LLMs如 GPT-4 通常更倾向于第一个生成的LLM输出而非第二个。此外还有其他一些普遍考虑因素例如LLM幻觉问题。但这并不意味着这些问题无法解决。在下一节中我们将探讨一些技术方法来缓解这些限制。六、提升LLM判断质量思维链提示思维链CoT提示是一种方法通过提示模型明确表达其推理过程在将 CoT 应用于LLM评委时它涉及在提示中包含详细的评测步骤而非模糊、高层次的评判标准以帮助评委LLM进行更准确可靠的评测。这也有助于LLMs更好地符合人类预期。这实际上是 G-Eval 所采用的技术他们称之为“自动思维链”auto-CoT当然该技术已在 DeepEval[5] 中实现你可以这样使用它from deepeval.test_case import LLMTestCase, LLMTestCaseParamsfrom deepeval.metrics import GEvaltest_case LLMTestCase(inputinput to your LLM, actual_outputyour LLM output)coherence_metric GEval( nameCoherence, criteriaCoherence - the collective quality of all sentences in the actual output, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT],)coherence_metric.measure(test_case)print(coherence_metric.score, coherence_metric.reason)少量样本提示少量样本提示是一个简单的概念它通过包含示例来更好地指导LLM的判断。虽然由于包含更多输入令牌而计算成本更高但少量样本提示已显示能将 GPT-4 的一致性从 65.0%提升至 77.5%。除此之外这里没有太多需要详细说明的内容如果你曾尝试过不同的提示模板就会知道在提示中添加几个示例可能是引导LLM生成输出的最有效方法。使用输出令牌的概率为了使计算出的评测分数更具连续性我们不要求评委LLM在更细粒度上输出分数这可能引入评分标准的随意性而是让LLM生成 20 个分数并利用LLM输出令牌的概率通过计算加权总和来归一化分数。这减少了LLM评分中的偏差平滑了最终计算出的指标分数使其在不牺牲准确性的前提下更加连续。额外提示这一方法同样在 DeepEval 的 G-Eval[6] 实现中得到了应用。参考引导的判断相较于单一输出和无参考判断提供一个预期输出作为理想答案有助于评委LLM更好地与人类期望对齐。在提示中这可以简单地通过将其作为少量示例提示的一部分来实现。限制 LLM 判断与其将整个生成的输出交给LLMs进行评测不如考虑将其分解为更细粒度的评测。例如可以利用LLM驱动问答生成QAG这是一种计算非任意性分数的强大技术。QAG 是一种基于对封闭式问题回答“是/否”来计算评测指标分数的有效方法。举例来说若想根据给定输入计算LLM输出的答案相关性[7]可先提取LLM输出中的所有句子并确定与输入相关的句子比例。最终答案相关性分数即为LLM输出中相关句子的占比。某种程度上我们之前讨论的 DAG 也运用了 QAG我知道开始觉得这些-AG 有点滑稽尤其是在需要二元判断的节点上。关于 QAG 更完整的示例可阅读这篇文章[8]了解如何利用 QAG 为各种不同的 RAG 和文本摘要指标计算分数。QAG 是一种强大的技术因为它意味着LLM评分不再随意而是可以归因于一个数学公式。将初始提示分解为仅包含句子而非整个LLM输出也有助于对抗幻觉因为现在需要分析的文本量减少了。交换位置这里没有高深的技术我们只需简单调换位置即可解决成对LLM评审中的位置偏差问题并且仅当答案在两种顺序下均被偏好时才宣布胜出。微调对于更特定领域的LLM评审员你可以考虑对类似 Llama-3.1 这样的开源模型进行微调和定制。如果你希望缩短推理时间并降低与LLM评测相关的成本这也是一个选择。七、使用LLM Judges 在LLM Evaluation Metrics 中最后LLM 评委可以且目前最广泛地用于评测LLM 系统方法是将其作为评分者纳入LLM 评测指标中关于如何将LLM评委用作记分员的提醒一个好的LLM评测指标实现会运用所有提到的技术来提升LLM评分器性能。例如在 DeepEval中我们已采用 QAG 来限定 RAG 指标如上下文精确度中的LLM判断或为自定义指标如 G-Eval应用 auto-CoTs 和输出令牌概率归一化最重要的是对所有指标采用少样本提示以覆盖广泛边缘案例。查看可立即使用的完整指标列表请点击此处[9]。在本文的最后我将展示如何用几行代码利用 DeepEval 的指标。你也可以在 DeepEval 的 GitHub[10] 上找到所有实现它是免费且开源的。连贯性你可能已经多次见过这个一个可以通过 G-Eval[11] 实现的自定义指标from deepeval.test_case import LLMTestCase, LLMTestCaseParamsfrom deepeval.metrics import GEvaltest_case LLMTestCase(inputinput to your LLM, actual_outputyour LLM output)coherence_metric GEval( nameCoherence, criteriaCoherence - the collective quality of all sentences in the actual output, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT],)coherence_metric.measure(test_case)print(coherence_metric.score, coherence_metric.reason)请注意我们为 G-Eval 开启了 verbose_mode 。当在 DeepEval 中启用详细模式时它会打印出LLM评判的内部运作过程并允许你查看所有中间评判结果。文本摘要接下来是摘要生成。我热衷于讨论摘要生成因为它是用户通常对成功标准有清晰认知的用例之一。在文本摘要用例中格式处理尤为重要。这里我们将使用 DeepEval 的 DAG[12] 指标但稍作调整。不同于 DAG 章节中展示的代码实现我们会先用 DAG 自动给不符合格式要求的摘要打 0 分然后在 DAG 内部以 G-Eval 作为叶节点返回最终评分。这意味着最终分数并非硬编码同时确保你的摘要满足特定要求。首先创建你的 DAG 结构from deepeval.test_case import LLMTestCaseParamsfrom deepeval.metrics.dag import ( DeepAcyclicGraph, TaskNode, BinaryJudgementNode, NonBinaryJudgementNode, VerdictNode,)from deepeval.metrics import DAGMetricg_eval_summarization GEval( nameSummarization, criteriaDetermine how good a summary the actual output is to the input, evaluation_params[LLMTestCaseParams.INPUT, LLMTestCaseParams.ACTUAL_OUTPUT])correct_order_node NonBinaryJudgementNode( criteriaAre the summary headings in the correct order: intro body conclusion?, children[ VerdictNode(verdictYes, g_evalg_eval_summarization), VerdictNode(verdictTwo are out of order, score0), VerdictNode(verdictAll out of order, score0), ],)correct_headings_node BinaryJudgementNode( criteriaDoes the summary headings contain all three: intro, body, and conclusion?, children[ VerdictNode(verdictFalse, score0), VerdictNode(verdictTrue, childcorrect_order_node), ],)extract_headings_node TaskNode( instructionsExtract all headings in actual_output, evaluation_params[LLMTestCaseParams.ACTUAL_OUTPUT], output_labelSummary headings, children[correct_headings_node, correct_order_node],)# create the DAGdag DeepAcyclicGraph(root_nodes[extract_headings_node])然后基于此 DAG 创建 DAG 指标并运行评测from deepeval.test_case import LLMTestCase...# create the metricsummarization DAGMetric(nameSummarization, dagdag)# create a test case for summarizationtest_case LLMTestCase(inputyour-original-text, actual_outputyour-summary)# evaluatesummarization.measure(test_case)print(summarization.score, summarization.reason)从 DAG 结构中可以看出对于所有格式不正确的情况我们返回 0 分但之后会运行 G-Eval。你可以在此处找到 DAG 的文档[13]。上下文精确度上下文精确度是一种 RAG 指标用于确定 RAG 管道中检索到的节点是否按正确顺序排列。这一点很重要因为LLMs往往会更多地考虑靠近提示末尾的节点近因偏差。上下文精确度通过 QAG 计算其中每个节点的相关性由LLM评委根据输入内容判断。最终得分是一个加权累积精确度完整解释可在此处[14]查看。from deepeval.metrics import ContextualPrecisionMetricfrom deepeval.test_case import LLMTestCasemetric ContextualPrecisionMetric()test_case LLMTestCase( input..., actual_output..., expected_output..., retrieval_context[..., ...])metric.measure(test_case)print(metric.score, metric.reason)八、结论你成功了这对LLM评委来说任务繁重但至少我们现在了解了不同类型的LLM评委、他们在LLM评测中的角色、各自的优缺点以及如何改进它们的方法。LLM评测指标的主要目的是量化你的LLM应用性能为此我们有不同的评分者其中当前最佳的是LLM评委。当然存在诸如LLMs在判断中表现出偏见等缺点但这些可以通过思维链和少量示例提示进行工程优化。‍如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

我也要投放广告丰台网站关键词优化

怎样建一个收费网站自动点击器app

静态手机网站基础北京科兴中维新冠疫苗最新消息

现如今网站开发用什么框架青岛做网站找哪家

微网站的价格网站建设前台后台设计

营销型网站sem投放策略网站正在建设中英文

网站首页收录没了企业为什么网站建设