30天网站建设汉语言专业简历制作说明

张小明 2025/12/31 9:53:57
30天网站建设,汉语言专业简历制作说明,商丘睢阳区市政建设局网站,网站开发的私活入数据分布#xff08;环境#xff09;时#xff0c;若基于模型自身的决策#xff0c;可能会破坏模型。如果训练集、测试集的差异很大#xff0c;就是发生了 分布偏移 。分布偏移分为 3 种#xff1a;协变量偏移#xff1a;特征分布变化#xff0c;但特征与标签映射环境时若基于模型自身的决策可能会破坏模型。如果训练集、测试集的差异很大就是发生了 分布偏移 。分布偏移分为 3 种协变量偏移特征分布变化但特征与标签映射条件分布不变。换句话说输入数据的样貌改变决定结果的规则未变。如在判断猫、狗模型中虽然决定判别的因素始终不变脸型、胡须、尾巴但来自写实与动漫这些因素有不同的分布特征。标签偏移标签分布发生变化 但是条件分布不变。各类结果出现的频率、占比改变了但是结果对应的特征不变。比如春秋季节流感高发但是如果用这数据预测夏季可能会导致大量假阳性。概念偏移条件分布也就是映射改变了。如现在扁平化、Flutter UI的美学设计风靡而千禧年间的铬核美学色彩搭配设计逐渐过时。数量偏移不同信息来源提供的数据信息量差比巨大。就是各数据源的权重因数据量差别过大而不均匀。我们先认识一下名词协变量一个独立变量不受实验者操控即不可控但仍影响结果如一个人的性别。经验风险模型对所有训练样本的拟合能力是局部的、可求的。计算后会使用合适的优化方法如梯度下降法来最小化这个损失从而获得具有某种最优的模型参数。期望风险模型对所有样本训练样本测试样本等待预测的未知样本的拟合能力是全局的、不可求的。真实分布真实应用场景中的该协变量和标签的组合常见程度。标签分布每个标签在数据集中出现的概率。先说说我们应该如何解决协变量偏移呢我们现在想要测量一下期望风险\[E_{p(\mathbf{x}, y)} [l(f(\mathbf{x}), y)] \int\int l(f(\mathbf{x}), y) p(\mathbf{x}, y) \;d\mathbf{x}dy \]这里的 \(p(\mathbf x,y)\) 是真实分布然而我们的观测值 \(\mathbf x_i\) 是从训练数据中得出的并不是从目标分布中得出的。所以我们最开始使用 \(q(\mathbf x)\) 即源分布。不过我们可以在真实风险的计算中随时更正这个概率\[\begin{aligned} \int\int l(f(\mathbf{x}), y) p(y \mid \mathbf{x})p(\mathbf{x}) \;d\mathbf{x}dy \int\int l(f(\mathbf{x}), y) q(y \mid \mathbf{x})q(\mathbf{x})\frac{p(\mathbf{x})}{q(\mathbf{x})} \;d\mathbf{x}dy \end{aligned} \]也就是说我们可以用重要性采样重新衡量每个数据样本的权重\[\beta_i \stackrel{\mathrm{def}}{} \frac{p(\mathbf{x}_i)}{q(\mathbf{x}_i)} \]这里 \(p(x_i)\) 是目标分布来自真实生产环境\(q(x_i)\) 是源分布来自我们当前实际拥有的如公开数据集、采集的数据。因此如果一个 \(x\) 在 \(p(x)\) 中很常见但是在 \(q(x)\) 中很罕见 \(\beta_i\) 权重会很大。将其作为加权来训练模型就是\[\mathop{\mathrm{minimize}}_f \frac{1}{n} \sum_{i1}^n \beta_i l(f(\mathbf{x}_i), y_i) \]但是很显然我们无法直接计算得到前后分布的概率比率 \(\beta\) 我们可以这样估计先从两个分布中抽取数量相同的样本真实的分布\(p\)训练集\(q\)这里我们只需要特征\(\mathbf x\)。我们这里使用对数几率回归一种用于二元分类的Softmax回归的特例。设置一个 \(flag\) 用\(1\)表示\(p\)中的数据用\(-1\)表示\(q\)中的数据。可以把现在的数据集想象为一个很大的unordered_mapsample, flag。则混合数据集中的概率可表示为\[\begin{split} P(flag1 \mid \mathbf{x}) \frac{p(\mathbf{x})}{p(\mathbf{x})q(\mathbf{x})} \\ \frac{P(flag1 \mid \mathbf{x})}{P(flag-1 \mid \mathbf{x})} \frac{p(\mathbf{x})}{q(\mathbf{x})}\beta_i\end{split} \]用 \(c\) 修正一下过大的权重\[\beta_imin(exp(log(\frac{p(\mathbf x)}{q(\mathbf x)})),c) \]当然以上推导成立的条件是目标分布中的样本不能从未在训练集中出现过否则这个 \(\beta _k\) 将会趋近于正无穷。我们应该如何解决标签偏移呢运用什么协同量偏移的例子我们依旧可以得到\[\beta_i \stackrel{\mathrm{def}}{} \frac{p(y_i)}{q(y_i)} \]我们首先创建一个 \(k \times k\) 的混淆矩阵 \(\mathbf{C}\) 列为标签行为模型预测即 \(c_{i, j}\) 表示真实标签为 \(j\) 时被模型预测为 \(i\) 的样本数量所占的比例。然后就可以得到计算模型在测试集上的平均预期分布 \(\mu(\hat y)\) 的公式\[\mu(\hat{y}_i)\sum_{j1}^k c_{ij} p(y_j) \]例如若分类器完美\(\mathbf C\) 就是单位矩阵平均预期分布真实分布。如上 \(p(y_j)\) 是真实标签分布换句话说我们完全可以反推真实分布 \(p(y_i)\)\[p(\mathbf{y}) \mathbf{C}^{-1} \mu(\hat{\mathbf{y}}) \]然后自然而然就可以计算出权重比率 \(\beta\) 了。这节很抽象让我们简单举个例子吧我们有一个简单的二分类问题诊断流感。源域春秋季流感高发期。假设在训练数据中流感病例占30%非流感病例占70%。即q(流感) 0.3q(非流感) 0.7目标域夏季流感低发期。真实标签分布中流感病例仅占5%非流感占95%。即p(流感) 0.05p(非流感) 0.95假设我们在源域春秋季上训练一个流感分类器并在一个带标签的验证集上评估它。验证集包含100个样本30个流感70个非流感分类器的预测结果如下在30个流感病例中27个被正确预测为流感真阳性 ····0.93个被错误预测为非流感假阴性 ····0.1在70个非流感病例中66个被正确预测为非流感真阴性 ····0.9434个被错误预测为流感假阳性 ····0.057\[\mathbf C \begin{equation} \left[ \begin{array}{ccc} 0.9 0.057 \\ 0.1 0.947 \\ \end{array} \right] \end{equation} \]在目标域夏季我们无法直接获得真实标签但我们可以运行分类器得到预测分布。假设在夏季数据上分类器的预测结果为\(\mu(预测流感) 0.15\)即15%的样本被预测为流感\(\mu(预测非流感) 0.85\)即85%被预测为非流感这个预测分布 \(\mu(\hat y)\) 并不等于真实分布\(p(y)\)。我们可以使用公式\(p(y) C^{-1} \mu(\hat y)\)来估计真实分布算出 \(p(流感) ≈ 0.11 p(非流感) ≈ 0.89\)就可以算出对于流感样本\(\beta_{流感} \frac{p(流感)}{q(流感)} \frac{0.05}{0.3} ≈ 0.1667\)对于非流感样本\(\beta_{非流感} \frac {p(非流感)}{q(非流感) } \frac{0.95}{0.7} ≈ 1.3571\)所以我们应用 \(\beta\) 权重后的训练过程假设批量大小 \(B 10\)按源域分布流感样本\(10 \times 0.3 3\) 个非流感样本\(10 \times 0.7 7\) 个损失函数也会在加权后改变\[\begin{align} L_{\text{原始}} \frac{1}{10} \sum_{b1}^{10} \ell_{\text{CE}}(y_b, \hat{y}_b) \\ L_{\text{加权}} \frac{1}{10} \left[ 0.1667 \cdot \sum_{b1}^{3} \ell_{\text{CE}} 1.3571 \cdot \sum_{b4}^{10} \ell_{\text{CE}} \right] \end{align} \]而根据 \(\beta\) 加权也改变了梯度贡献
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

中国建设银行青岛网站公司名称变更网站备案怎么处理

你可能听说过“云手机”,也能想象到它是一个能在云端运行的“虚拟手机”,不用耗自己手机的电和内存,适合挂游戏、多开应用。但最近挺火的的这个VMOS Edge本地永久云手机又是什么?不是说“云手机”在云端运行吗?怎么又到…

张小明 2025/12/25 22:29:24 网站建设

阿里云域名空间网站建设wordpress 文章太多

告别手速焦虑:用Python脚本轻松搞定演唱会抢票难题 【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。 项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 还在为抢不到心仪演唱会门票而烦恼吗?面对开票瞬间的激烈竞争&#xff…

张小明 2025/12/29 17:22:11 网站建设

做网站产品介绍网络推广培训机构排名深圳

文章详解了LangGraph框架的核心概念与应用模式。StateGraph作为中心组件,通过State、Node、Edge三要素实现状态管理和流程控制。文章介绍了五种应用模式:思维链(线性结构)、自我反思(反馈循环)、多智能体协…

张小明 2025/12/25 22:29:23 网站建设

专门做网站需要敲代码么wordpress安装手机版

MusicFree插件完全指南:5分钟打造专属音乐播放器 【免费下载链接】MusicFreePlugins MusicFree播放插件 项目地址: https://gitcode.com/gh_mirrors/mu/MusicFreePlugins 还在为音乐播放器功能单一而苦恼吗?MusicFree插件系统为你提供了无限扩展可…

张小明 2025/12/25 22:29:22 网站建设

无锡城乡建设局网站建设部一建注册公示网站

腾讯开源HunyuanVideo-Foley:实现AI视频“声画合一” 在当前AIGC迅猛发展的浪潮中,图像生成、视频合成已能以假乱真,但一个常被忽视的细节却始终制约着沉浸感的真实还原——声音。你是否曾见过一段画面流畅、构图精美的AI生成视频&#xff0…

张小明 2025/12/30 3:22:07 网站建设

手机网站建设哪家强宁乡网站建设公司

Windows Defender彻底卸载指南:5步实现系统性能大飞跃 【免费下载链接】windows-defender-remover 项目地址: https://gitcode.com/gh_mirrors/win/windows-defender-remover Windows Defender作为系统内置的安全防护组件,在某些场景下反而成为性…

张小明 2025/12/25 22:29:27 网站建设