私人定制网站建设网站自己推广怎么做-晋城市网站建设公司-Seo优化

私人定制网站建设,网站自己推广怎么做,个人电影网站做APP违法吗,宣传彩页设计制作淘宝闪购技术部分享了在大模型应用落地过程中的评测体系建设经验。面对研发模式变革、技术快速演进等挑战#xff0c;他们构建了标准化流程插件化扩展的评测平台#xff0c;从业务目标、产品效果等维度评价AI产品#xff0c;采用端到端与分层结合的评测策略他们构建了标准化流程插件化扩展的评测平台从业务目标、产品效果等维度评价AI产品采用端到端与分层结合的评测策略按变更风险分级实施。该平台已支持10部门、90AI产品累计发现问题200解决率80%为AI产品质量提供了可靠保障。一、背景和挑战1.1 背景在人工智能技术迅猛发展的推动下各行各业正经历前所未有的数字化转型浪潮。从智能制造的智能调度系统到医疗领域的辅助诊断工具从金融行业的风险预测模型到电商场景下的个性化推荐引擎——AI 正在以一种不可逆转的趋势重塑产业格局。尤其值得关注的是大模型技术的突破性进展不仅显著降低了 AI 应用的技术与人员门槛更催生了“产业AI”融合创新的广泛应用场景为行业智能化升级注入了强劲动能。在此大背景下淘宝闪购技术部也在前两年就开始前瞻布局 AI 技术在业务中的深度应用。随着大模型的发展和业务场景探索的结合FY26的AI应用已经从技术探索向价值落地转型全面渗透至用户、商家、BD的核心操作环节环节成为提升效率、优化体验的关键驱动力。当前已形成四类主要应用场景数字人如餐饮/零售智能新签经理、商家经营助手、AI 销售助手、面试招聘助手等整体的发展路径从“被动”等用户提问到“主动”推出功能能力提升用户满意度。数据分析与决策类产品如经营分析、营销托管、AI售后、门店异动分析等既可作为助手类产品的功能延伸也可在自己模块内作为一个模块有的具备一键采纳执行能力助力商户快速识别问题并采取行动提升决策效率。多模态内容创作类产品如店铺装修、智能帮写、语音会议纪要等进一步降低内容创作门槛用户可一键采纳执行赋能高效完成日常运营任务。搜推AI化如C端、B端AI搜索能够帮助用户搜索推荐店铺、商品商户快速搜功能、搜品、搜订单、搜规则等。1.2 挑战在AI产品落地过程中它的不确定性、动态性和复杂性给质量和体验保障带来了前所未有的挑战。AI产品的特性使得测试既不是简单的功能验证也不是纯算法模型的评测我们梳理了面临的几个比较突出的挑战点研发合作模式变革技术快速演进Agent链路复杂度高1、从“验收式测试”到“共创式评测” 工程产品是“需求明确 → 设计实现 → 测试验证”AI产品则是“技术驱动 → 场景探索 → 效果迭代”的螺旋式过程。挑战点评测需前置至需求阶段与产品和研发共同定义“好”的标准。1、应用架构演进快模型、应用框架等基础建设日新月异导致研发框架迭代升级频繁。挑战点白盒分层测试在架构调整时要大改测试用例、脚本和基线维护成本极高如何平衡端到端测试和白盒测试。1、金标数据回测难在算法评测中金标评测集可以长期复用在agent场景每次评测时外部服务数据、时间、接口行为可能变化即使输入相同也会因为外围导致答案偏离原始金标。挑战点如何构建可回放的环境充分利用金标数据减少金标数据失效。2、研发节奏与版本形态变化以前一个版本是一次代码发布现在一个版本可能是模型更换、prompt 改写、检索策略调整、工具编排改造或它们的任意组合挑战点需要建立适配不同变更类型的评测策略组合否则要么评测成本爆炸要么质量风险不可控。2、评测技术发展快近年来LLM-as-a-judge、多模型互评、 Agent-as-a-judge、自动化对抗样本等新技术层出不穷。挑战点如何设计通用的评测平台能快速集成新的用例集生成和评测方式避免平台成为绑定特定技术的重资产系统。2、线上效果评估难线上效果评估同样面临链路复杂度与人工资源双重制约。挑战点如何通过自动化半自动化构建标注体系以裁判与规则筛查为主、辅以少量人工抽检校准。二、评测体系思考面对上述研发合作模式、技术演进与 Agent 链路复杂度带来的多重挑战评测工作需要从传统的“验收活动”升级为贯穿AI产品全生命周期的“质量工程体系”构建一套支撑其持续迭代发布的评测体系和平台成为AI产品优化迭代的“指路灯”。首先我们来看整个研发模式流程的变化1评测标准的制定从研发单一角色制定转变到产品、设计、研发、业务方BD/运营共同参与指标从“研发自说自话”转向“业务-技术目标同频”解决AI产品常见的“技术达标但体验崩坏”问题。2质量保障重心从单一线下测试拓展为“线下守基线线上效果评估”双轨并行确保迭代稳定性与线上效果的实时对齐。3针对多数产品缺乏专职标注团队的现状人工评测不再依赖规模化的外包打标而是通过“化整为零”策略回收研发评测、产设验收及线上运营标注数据——将优质数据沉淀为金标集对差的数据结合预期修正后转化为自动化回归用例盘活全链路人工数据价值。接下来我们从评什么维度怎么评评测方式策略、怎么度量覆盖与效率以及“线上效果怎么评估”几个方面进行思考2.1 评什么维度——AI产品评价维度AI 产品的评价指标不应千篇一律但在顶层维度上可以相对稳定。通常可从以下五个维度展开并根据产品生命周期和当前迭代重点动态调整侧重点动态裁剪 * 业务目标对业务结果的贡献如转化率、留存、GMV、人工替代率等 * 产品效果回答正确率、用户帮助性、组件/工具选择准确率、忠实度、逻辑性、数值幻觉等核心质量指标 * 性能与体验响应时延、多轮交互体验、截断率、用户满意度等 * 安全与合规内容安全、数据隐私、合规要求等 * 服务与成本服务稳定性、推理成本、资源使用效率、运维复杂度及整体性价比。2.2 怎么评 ——评测方式和策略端到端评测 VS 分层评测比较评测方式端到端评测分层评测优点1. 贴近真实用户体验能直接回答“是否解决用户问题” 2. 指标易于对业务方解释任务成功率、满意度等 3. 适合作为版本对比和上线决策依据1. 能细化到意图识别 / 工具规划 / 文本召回等模块便于精准定位问题和针对性优化 2. 不同层可以采用最合适的指标缺点1. 难以精确定位问题来源是模型、检索还是工具出错 2. 在 Agent 外部服务场景下链路易随时间漂移结果不稳定1. 评测集维护工作量指数级上升需要为每一层单独维护用例与脚本 2. 评测集和评测方式与开发实现耦合度高需频繁跟随架构升级迭代调整面对Agent架构下链路复杂度高、版本形态多变等挑战90%以上的供给AI应用均是基于E-LLM-Stack进行开发E-LLM-Stack是面向淘宝闪购大模型应用解决方案的基建设施旨在为淘宝闪购各业务线开发同学提供一套模板化、规范化、生产级的大模型应用解决方案涵盖了从应用框架到原子能力的一站式方案。其他部门也会提供对前端的TPP、HSF接口这部分的接口相对稳定即使架构升级也会兼容老逻辑。因此我们推荐大部分AI产品的评测基于端到端评测以AI应用对外的顶层解决方案/接口作为切入点同时复杂的AI应用也会对接多个下游Agent也可针对某个下游Agent实施精准测试形成全局把控局部深挖的保障机制即避免了白盒过度绑定细节也能精准定位到哪一类功能/问题配合E-LLM-Stack上自带的链路跟踪排查工具解决归因定位的问题。主流的评测方式从是否有参考答案的维度上来讲有参考答案Reference-based无参考答案Reference-free对这2种方式进行一个比较评测方式有参考答案无参考答案特点及适用场景* 每个样本可以预先定义标准答案或有限集合的“可接受答案” * 适用于目标明确、可标准化的场景结构化问答、信息抽取、数据计算、一键执行调用参数正确性等* 场景本身不存在唯一标准答案或穷举标准答案成本极高 * 适用于开放式生成、多轮对话、创意写作等主观性强且答案多样的场景优点* 指标客观、可重复 * 可形成“金标集”作为产品和模型演进的基线* 数据构造灵活 * 能覆盖更多真实复杂场景缺点* 标注成本高对开放式任务覆盖有限 * 在 Agent MCP 场景下需依赖“可回放环境”否则金标容易失效* 评价主观性强易受裁判 / 模型偏好影响需通过抽样人工复核、裁判版本固化等方式控制稳定性和可比性 * 对数值、链接等强约束信息如果没有配套规则/工具即使人工也很难做精确核验线下评测是 AI 产品质量保障的基础环节评测方式重点是在可控环境下充分利用金标数据对版本进行验证。没有金标数据的情况下也要尽可能收集参考资料为裁判评测提供依据。那针对有参考答案Reference-based和无参考答案Reference-free存在的短板要思考相对应的解决方案1针对有参考答案的评测我们核心要解决的是构造一个稳定可复现的“环境”。去年我们在做智能新签评测时已经意识到稳定可复现环境的重要性开发了基于 EAgent3.0 供给内部的一个对话类解决方案模板的录制回放插件可以在调用时记录外围工具的入参/出参、时间等信息回放时注入当时记录的数据实现评测环境的稳定金标用例的可重复回放后续规划将统一基于 E_llm_stack 对 MCP 层请求和响应进行记录和回放的能力达到平台通用的目的。2针对无参考答案的评测我们核心要解决的是跟上评测技术发展有快速接入新评测范式的能力。目前FY26 S1 我们采用的大多是 LLM-as-a-Judge范式主要的落地形式有2种I、通过设计多维度、可量化的打分维度如正确性、完整性、逻辑性、安全性等建立类似指标衡量的基线II、通过抽样采集线上近几天数据进行预发回放比对线上/预发返回做定性比较“好”、“坏”、“差不多”比对评测。在实践中发现通用裁判模型对有些产品内的细节不了解难以判断因此针对复杂场景从通用的“模型裁判”升级为微调的模型裁判或“Agent 裁判”让裁判本身具备检索、工具调用等能力主动收集可佐证的参考资料后再打分提高对事实、数值、外链等细节的判断能力。如下图所示此外我们尝试规则和启发式检测沉淀通用工程规则、裁判通用规则如格式校验、淘宝闪购禁发品黑名单等规则等提供给各个业务做检测支持。构建通用定制的多裁判的方式。2.3 怎么度量——覆盖度量与效率评测方式和策略确定之后真正落地到每一次版本迭代首先要回答的不是“怎么评”而是“评多少、评哪些”在有限的时间和人力内本次迭代应该选择哪些评测集、覆盖到哪些场景和链路才能既保证质量又能满足90%以上的回归在小时级别完成这恰恰是当前线下评测的核心难点之一。我们建议按“变更范围 × 变更风险”来设计三档评测策略并通过用例标签体系自动筛选推荐用例版本等级典型变更线下评测策略用例选择小变更* Prompt 针对性微小调整 * 召回参数、排序权重小幅微调 * UI 文案 / 轻量交互变更对底层能力影响极小* 目标快速确认“无裂化” * 小规模端到端冒烟用例覆盖关键主链路典型高频场景* 筛选核心场景抽样高风险场景抽样高频BadCase的少量代表性用例中等变更* 日常需求迭代新增 / 调整一个工具或知识源/接入Agent * 调整 Agent 策略如规划、反思、重试逻辑* 目标确认变更点效果有提升且未引入新的明显问题 * 围绕变更点的定向专项端到端评测 * 补充无参考答案评估LLM 评审人工抽查* 筛选或新增本次特定业务场景受到本次变更工具/链路的影响数据历史 BadCase重大变更* 基础模型替换或新增模型路由 * 大规模重构多工具编排方案变化 * 关键业务流程逻辑重写* 目标系统性验证整体质量 * 全量或高覆盖端到端回归覆盖核心业务、长尾场景、安全与越权场景* 全量沉淀的产品金标用例 * 线上近期数据的对比回放裁判评测 * 必要时引入对抗样本探索潜在新风险这套“按变更分级标签选集”的策略能否落地前提是要有一套清晰、可操作的用例标签体系。S2 阶段我们计划从三个主维度入手进行建设在保证简单可用的前提下为后续按需扩展留出空间。主维度标签字段示例取值业务维度业务领域基础与咨询/履约/营销/门店基础/……商户/用户特征到家/到店单店/连锁等等场景功能异常归因/商圈诊断/机会品/账单诊断/……质量与风险维度风险等级高/中/低重要程度P0 / P1 / P2是否线上BadCase是/否对抗样本是/否系统链路维度任务类型RAG问答/数据分析/工具执行/经验匹配……工具/服务无工具 / Tool_A / Tool_B / Agent_C …是否深度思考是/否2.4 怎么评估线上效果线上评估方面我们从数据采集用户反馈系统日志→ 问题发现监控人工智能挖掘→ 根因定位基于链路分析工具→ 优化落地形成“监测-分析-优化”完整闭环。2.5 怎么能力扩展通用——支撑更多业务每个业务有自己的特色平台除了主站提供通用能力外已完成与三大主流淘宝闪购AI开发与评测平台的深度对接但底层任务调度与执行依然由评测平台保障和支撑。三、平台建设3.1 平台架构及能力除了在实践中不断思考和实践评测体系外我们也持续建设了一年多的大模型应用评测平台沉淀了较丰富和完整的能力支撑我们的评测体系落地。平台核心设计理念是标准化流程插件化扩展——在评测技术日新月异的背景下通过解耦评测步骤与实现逻辑既保障流程规范性又能快速集成各模块的新实现。在平台建设中逐步将供给域验证有效的评测能力抽象为通用组件服务更多团队评测场景注册支持集团内HSF/TPP/Whale等多协议接入评测集兼容Excel/ODPS 、SQL/流量录制/日志等多源数据评价指标覆盖工程指标、文本指标、RAG指标和Agent指标、同时支持模型裁判、agent裁判。具体架构图如下所示3.2 平台成果自大模型应用评测平台上线后不仅支持了淘宝闪购部门外部羚羊、菜鸟、淘天、阿里云等部门同学的试用和交流。平台能力演示等如下大模型应用平台阶段成果平台用户增长 * 接入部门10 * AI产品数90 * 平台UV300 * 深度用户200 创建评测任务用户资产沉淀及问题发现 * 评测集1,053 * 评测场景652 * 裁判评价模板67 * 发现问题200 仅统计默认空间 * 累计问题研发解决率80%平台稳定性 * 累计执行任务12,000次 * 累计执行数据量150w * 执行成功率95% * 答疑24H解决率85% * 线上问题双周解决率95%备注数据统计截止2025.9.30四未来展望01、支持多模态评测能力目前平台主要服务于文本类 AI 产品评测流程和工具相对成熟。但随着图片、音视频等多模态能力在业务中的落地单一文本评测已经无法覆盖整体体验。规划方向平台从“AI文本类产品评测平台”演进为“多模态 AI 评测平台”。在现有评测框架之上逐步扩展对图片类 AI 产品的评测能力引入适配多模态的自动评估方法如多模态 LLM 裁判、视觉质量指标与人工标注流程构建文本图片贯通的评测基线。让平台从“文本评测工具”演进为“多模态 AI 评测基础设施”。02、可视化标注工作台目前标注人员需要直接理解技术字段如工具组件名称、工具调用链路上手门槛高业务同学参与度有限。要想把评测真正做成“产品–研发–测试–业务共建”必须降低标注门槛、提高协作效率。规划方向通过可视化标注工作台让“懂业务的人能轻松标懂技术的人能高效复盘”真正把评测数据建设变成全团队的持续协同过程。构建动态渲染引擎将抽象的技术组件和链路信息定制组件渲染、工具调用等转化为直观的页面表达以「业务视角」呈现评测样本。03、开放评测能力插件市场不同业务线在评测标准、规则与指标上存在差异和定制若所有评测规则和指标都由平台团队统一实现不但响应慢、维护成本高也难以匹配各业务的细粒度需求。规划方向评测平台从“一个团队维护的工具”升级为“多业务共建的评测能力生态”提供统一的评测能力接口规范支持各业务方上线自定义的评价规则如专有安全规则、业务得分模型和评价指标在平台中构建「评测能力插件市场」允许不同业务沉淀的插件被跨业务复用如通用安全规则、通用事实核验 Agent 等最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

私人定制网站建设网站自己推广怎么做

网站的架构与建设沈阳网站制作的公司

asp网站开发知识海外发布新闻

网站建设需求调查小米路由2 做网站

网站优化建设工作总结范文营销自动化平台

网站空间域名每年都得交吗贵阳建网站

网站建设视频百度网盘领动网站建设

私人定制网站建设网站自己推广怎么做

网站的架构与建设沈阳网站制作的公司

asp网站开发 知识海外发布新闻

网站建设需求调查小米路由2 做网站

网站优化建设工作总结范文营销自动化平台

网站空间域名每年都得交吗贵阳建网站

网站建设视频百度网盘领动网站建设

asp网站开发知识海外发布新闻