Songqian Li's Blog

去历史上留点故事

模型越复杂越容易出现过拟合状态,所以需要一种机制来保证我们模型的“简单”,这样我们的模型才能有较好的泛化能力,正则化是这类机制之一。

欧几里得范数:

L2 范数:

L1 范数:

推导过程

泰勒公式  

为什么可以减少过拟合

直观理解就是增加到足够大,会趋近于 0,但实际上是不会发生这种情况。通过正则化方法来消除或减少大量隐藏单元的影响,使这个网络变的更简单,越来越接近逻辑回归,在直觉上认为大量隐藏单元被完全消除了,但实际上是所有隐藏单元依然存在,但是他们的影响变小了。

正则化结果

如果正则化参数很大,很小, 将会相对变小。由于的取值范围很小,会导致激活函数相对呈线性,整个神经网络会计算离线性函数近的值,不会成为一个极复杂的高度非线性函数,不会发生过拟合。

Dropout 正则化

Dropout 正则化是随机减少每层的神经元来实现的。

Dropout 方法——Inverted Dropout

  1. 定义一个向量表示一个三层的 Dropout 向量, 表示保留某个隐藏单元的概率:

d3=np.random.rand(a3.shape[0],a3.shape[1])<keep-prob 2. 从第三层中获取激活函数(的值变为了 0 或 1,从而实现随机移除神经元),这里叫做

a3=np.multply(a3,d3) # a3*=d3 3. 由于我们随机的移除了一些节点,这样最终的预测值会发生改变,所以在这一步骤中对期望值进行补偿:

a/=keep-prob

在测试集中不需要使用 Dropout。

其他正则化方法

  • 数据扩增(data augmentation)
  • 提前停止训练神经网络(early stopping)
REFERENCES
相关文章
评论
分享
  • 使用PyTorch可视化必须知道的TensorBoard参数

    亲测可用的PyTorch和TensorflowBoard版本,不会出现绘制模型结构图片时空白的情况。 1234torch==1.2.0tensorboard==2.1.1tensorflow==2.1.0tensorboardX==2...

    使用PyTorch可视化必须知道的TensorBoard参数
  • 你看不懂的BERT解读

    本文主要是针对近年来序列模型的发展,例如 BERT、Transformer-XL、XLNet、RoBERTa 以及 XLM 等模型的思路整理。 BERT: Bidirectional Encoder Representations ...

    你看不懂的BERT解读
  • 我发现了Transformer模型的秘密

    本文希望从 Base-Attention 到 Transformer 逐层递进的解释其中的计算细节,从而更好的理解 Transformer 模型。本文主要对模型可能存在的盲区进行解释,可能思路有些跳跃,请谅解。参考资料见文章末尾Ref...

    我发现了Transformer模型的秘密
  • 机器学习常用算法原理

    Logistic Regression 逻辑回归的假设函数: 其中是输入,是要求解的参数。 函数图像: 一个机器学习模型实际上是把决策函数限定在某组条件下,这组限定条件决定了模型的假设空间,逻辑回归的假设空间: 它的意思是在给...

    机器学习常用算法原理
  • 《操作系统真象还原》:第十章 输入输出系统

    上一章中我们遇到的字符混乱和 GP 异常问题,根本原因是由于临界区代码的资源竞争,这需要一些互斥的方法来保证操作的原子性。 10.1 同步机制——锁 10.1.1 排查 GP 异常,理解原子操作 多线程执行刷屏时光标值越界导致...

    《操作系统真象还原》:第十章 输入输出系统
  • 《操作系统真象还原》:第九章 线程

    线程和进程将分两部分实现,本章先讲解线程。 9.1 实现内核线程 9.1.1 执行流 在处理器数量不变的情况下,多任务操作系统采用多道程序设计的方式,使处理器在所有任务之间来回切换,这称为“伪并行”,由操作系统中的任务调度器决定当...

    《操作系统真象还原》:第九章 线程
  • GPU虚拟化

    用户层虚拟化 本地 API 拦截和 API formwarding 在用户态实现一个函数库,假设叫 libwrapper, 它要实现底层库的所有 API; 让 APP 调用这个 libwrapper。如何做? libwrap...

    GPU虚拟化
  • 硬件虚拟化

    硬件虚拟化介绍 硬件虚拟化要做的事情 体系结构支持 体系结构 实现功能 作用 模式切换 Host CPU <-> Guest CPU 切换 CPU 资源隔离 二阶段地址转换 GVA-> GPA...

    硬件虚拟化
  • 《操作系统真象还原》:第八章 内存管理系统

    8.1 makefile 简介 这部分可参考阮一峰的讲解:https://www.ruanyifeng.com/blog/2015/02/make.html 8.1.1 makefile 是什么 makefile 是 Linu...

    《操作系统真象还原》:第八章 内存管理系统
  • 《操作系统真象还原》:第七章 中断

    7.1 中断是什么,为什么要有中断 运用中断能够显著提升并发,从而大幅提升效率。 7.2 操作系统是中断驱动的 略 7.3 中断分类 把中断按事件来源分类,来自 CPU 外部的中断就称为外部中断,来自 CPU 内部的中断称为内部...

    《操作系统真象还原》:第七章 中断