当前位置：首页 > news >正文

网站建设没付尾款企业建站公司推荐

news 2025/11/6 6:55:38

网站建设没付尾款,企业建站公司推荐,上海广告公司联系方式,江苏建设厅官方网站安全员B站看的视频#xff0c;课太长了#xff0c;180多节#xff0c;但搬运的没有作业练习#xff0c;最好找个能练习的 1#xff0c;假设模型时#xff0c;以前(2011版机器学习)用西塔代表参数组成的向量#xff0c;现在用w代表参数组成的向量#xff0c;b代表西塔0#x… B站看的视频课太长了180多节但搬运的没有作业练习最好找个能练习的 1假设模型时以前(2011版机器学习)用西塔代表参数组成的向量现在用w代表参数组成的向量b代表西塔0x还是特征与样本组成的矩阵。目的还是求系数w进而确定模型。比较一个样本的预测结果与实际结果的函数是损失函数。很多样本的损失函数的平均值就是代价函数。 2 神经网络的特点就是每一层的每一个单元里面都有两个式子左边是模型的有自己的系数和b右边是激活函数的。神经网络的激活函数sigmod 只有二分法才用但tanh 所有场合都比他优越常用的默认激活函数是ReLU不知道用哪个就用它。还有个leak ReLU。 3为什么需要激活函数呢因为如果没有激活函数(这也叫线性激活函数)那无论神经网络有多少层多个线性函数的组合还是线性函数它一直做的只是计算线性函数那就不如直接去掉隐藏层了所以要引入非线性函数(激活函数)。 4 正向传播是神经网络从左到右算出最终的预测值。反向传播是从右到左从输出开始对左边的参数求导目的是为了梯度下降。 5神经网络参数的随机初始化不能是零是比较小的数。 6自己调试时核对神经网络每一层的矩阵维数可以有效排查bug。 7神经网络正则化的方法dropout随机删除网络中的神经单元。 8 梯度消失和梯度爆炸是指训练深度神经网络时导数或坡度有时会变得非常大或非常小。解决思路是初始化参数那个方向。 9 梯度检验用来确保反向传播正确实施。 10 加速梯度下降的方法mini batchmomentumroot mean square propadam 。 11 加速模型训练的方法衰减学习率 12前面讲的内容包含有很多参数如何选择参数的初始化值呢用随机合适的scale搜索合适的参数而batch normalization算法使搜索参数变得很容易。 13逻辑回归只应用于二分法而应对多个分类用 softmax回归。 14 卷积。在图像识别中识别边缘需要用到 f*f 的矩阵作为过滤器。拿原图的像素矩阵 n*n与过滤器矩阵做卷积运算就能得到识别出的边缘。其中卷积运算的过程就是把过滤器矩阵依次放在原图像素矩阵上使对应值先相乘再相加结果值组成 (n-f1) * (n-f1)的新矩阵。过滤器的参数有不同的设置方法如果每个参数都通过反向传播不断调试并确定那这个过滤器就可以识别处复杂的边缘。卷积过程会有两个问题原图像素多次卷积后变小原图边缘的像素信息丢失。解决办法就是每次卷积前先扩展原图的像素这个行为叫 padding使用padding的卷积过程叫same(新矩阵为 (n2p-f1) * (n2p-f1)也就是卷积后像素不变p的值取决于ff通常为奇数)不用的叫valid(原图卷积后会变小) 15卷积的步长之前是1如果是s那么新矩阵为 ( (n2p-f)/s1) * ((n2p-f)/s1)若除以s不是整数就向下取整。 16三通道的图卷积过程为原图为 n*n*通道数3过滤器为 f*f*通道数3这俩通道数必须相同新矩阵为 (n-f1) * (n-f1) 新矩阵中每一个元素都是所有通道的过滤器大小的元素之和(比如3*394个通道共36个数他们的和就是新矩阵的一个元素)无论原图通道和过滤器通道有多少只能得到一个新矩阵如果有多个过滤器则得到多个新矩阵堆叠在一起类似长方体大小为 (n-f1) * (n-f1) * 使用的过滤器个数。 17过滤器每次的个数随意图片经过过滤器得到新矩阵这是一个隐藏层的计算过程经历多个层的计算后会得到一个最终的新矩阵比如它是7*7*40然后把它展开成一个长长的向量再把向量代入到逻辑回归或softmax回归输出这个图片是不是预期的内容比如图片里是不是有猫。 18一个卷积神经网络通常有三层卷积层池化层全连接层。最大池化max pooling就是通过最大化运算选取过滤器(hyper parameter 是过滤器大小filter 和步长stride )中的最大值组成新的小矩阵。卷积是把原图各元素先乘再加最大池化是只取最大。平均池化是只取过滤器中的平均值。随着隐藏层的深入矩阵的宽和高会不断缩小通道数不断增大。池化层在学术上可以和卷积层并称为一层因为它没有权重也可以被当作单独一个隐藏层。超级参数的选择可以参考别人文献的架构。 19和普通的全连接相比卷积的优势是参数共享和稀疏连接这两招可以减少参数从而能用更小的训练集训练它从而预防过拟合。 20神经网络例子经典神经网络LeNet5AlexNetVGG Net。残差网络Resdual Network 就是普通的隐藏层之间(隔得远)增加捷径short cut或远跳连接skip connection 连接覆盖的几个层成为残差块residual block。对于普通神经网络深度越深理论上错误率越来越低但实际上是越难训练所以错误率会先降再升而残差网络会解决这个问题。代价就是相当于被跳过的隐藏层没用了。 1*1卷积层给神经网络添加了一个非线性函数从而保持输入层中的信道数量不变或减少信道数量或增加。 inception 网络替我来决定过滤器的大小和要不要加卷积层或池化层。他就是应用各种过滤器然后把输出连接起来。面对计算成本问题可以通过1*1网络构建瓶颈层从而降低计算成本。只要瓶颈层构建的合理就不会降低网络性能。 21网上有别人训练好的权重参数和代码代码是单独的训练好的权重参数单独写在一个文件里而只下载代码则需要自己找训练集训练参数然后写到文件里。训练好模型应用的流程就是一张新图片进入代码经过权重参数在最后的softmax函数输出属于哪一类图。网上他们开源的的权重参数已经经过长时间的训练和调优性能很多把他们都下载下来只要修改最后的softmax函数改变要判断的类型即可比如有个识别1000种狗的模型你要迁移到识别三种猫。除了改softmax还要把前面的隐藏层全部冻结这样就不会更改人家之前的权重参数如果自己的数据越多就可以冻结的越少因为可以自己训练。 22 目标定位是在图片分类的基础上增加四个数字输出作为框一个数字输出pc作为判断是否只有背景。还是在图片分类的基础上再加个概念叫特征点特征点检测是只检测图片中几个特征点(x,y坐标 )然后分类时判断图片满足哪类的特征点从而认出这个人但这些特征点的训练集需要人工标注去训练权重练好了模型才能自己处理新图片。目标检测是在图片上以某个固定步幅滑动窗口输入给卷机网络处理扫描完整张图片如果框里有目标物体卷机网络输出1没有输出0。这就需要训练时先把样本用窗口标注出来。可以用卷积实现。滑动窗口无法准确框住对象怎么办 YOLO(you only look once)算法用的方法是把图片划成很多格子对每个格子做目标定位观察每个格子如果有对象将其中点分配给所在格子即使对象横跨多个格子也会被分到其中一个格子。 23如何判断目标检测算法运行良好呢用交并比计算检测正确的面积占窗口识别面积的比例如果大于0.5或0.7等等说明算法还不错。 24 非最大抑值(non-max suppression)在窗口密集的情况下目标会被检测出多次这个方法可以只显示概率最高的窗口(也就输出概率最大的分类结果但抑制很接近但不是最大的其他预测结果) 25anchor box用来处理一个窗口中有多个对象。 region proposals候选区域 26 人脸识别可以采用similarity 函数对比两张图片如果相似度低于某个值说明图片中是同一个人。实现这个功能的网络叫Siamese network 原理是图片进入卷积网络经过最后的编码函数输出为一个128维编码两个图片的编码距离小就说明是同一个人。人脸识别卷积网络参数训练的方法Triplet loss。 27神经风格迁移 neural style transfer 这个算法的实现是以原图和结果图为参数组成代价函数再以风格图和结果图为参数组成代价函数两个代价函数之和组成最终的代价函数使用梯度下降最小化他就能得到模型参数。 28 序列化模型sequence model 每个训练样本都有自己的长度每个训练样本的输出也有自己的长度。 one hot方法通过字典定位一个训练样本中的每个单词输出每个单词的向量输出长度就是向量个数。 29 循环神经网络一个训练样本中的每个单词都输入到一个隐藏层然后输出这个单词的向量。每个单词输入到隐藏层的权重参数为W_ax激活值由权重参数W_aa决定输出结果由W_ya决定。前一个单词的隐藏层产生的激活值会影响后一个单词的隐藏层。每一层都计算预期y与实际y之间的损失函数所有层的损失函数之和就是最终的损失函数。所以循环神经网络在某一时刻的预测仅使用了序列中之前的输入信息并没有使用序列中后面的输入信息。循环神经网络的激活值的激活函数经常选用 tanh输出结果y的激活函数由输出类型决定二分类问题用sigmoid 激活函数k分类问题用softmax。循环神经网络的反向传播就是把正向传播所有箭头反过来叫做 backpropagation through time 30前面讲的是1个输入对应1个输出的循环神经网络结构此外还有多对1多对多(其中也有输入长度和输出长度不一致的)1对多。 31 语言模型language model 会告诉你某个特定的句子它出现的概率是多少。语言模型衍生出两个系统语音识别和机器翻译。语言模型的基本工作就是把一个输入的文本序列搞成P(y^1y^2……y^ty)形式然后估计句子中各个单词出现的可能性。建立循环神经网络时每一层的激活函数a都会在当前时刻以上一个单词的正确答案(训练时会用正确的处理新数据时就用前一个预测的输出也不管他是不是真的对)为输入和条件概率计算整个字典中出现某个单词(比如字典有1万个单词这个单词是个1万维向量除了单词所在位置值其他维都是0)的概率(乘法公式)找概率最大的通过softmax把他作为输出y^几。最后定义损失函数就可以训练了 32训练一个模型之后想要了解这个模型学到了什么一个非正式的方法就是对这个模型进行新序列采样就是训练好的模型的softmax函数的第一个序列的输出是各种词的概率随机选一个词作为y^1的输出后面就不用管了它会自己传递直到采样到结束符或长度达到了设定的长度就结束。 33循环神经网络的梯度消失问题随着训练层数的增加导数可能指数级地增大如果遇到了梯度爆炸用梯度修减gradient clipping 解决导数也可能指数级地减小遇到梯度消失。GRU gated recurrent unit 门控循环单元它改善了循环神经网络的隐藏层使其能更好地捕捉深层连接并改善了梯度消失问题 GRU会在处理一次任务时产生一个新变量c代表记忆细胞memory cell它存储T时刻的激活值a然后经过函数计算可以更新c值后面GRU的门会决定每当进行到下一个时刻是否更新c 34 长短期记忆Long short term memory 它比GRU捕捉深层连接的效果更好也是单元。他有更新门遗忘门输出门当前时刻的门的值不仅取决于上一个时刻的激活值a和当前时刻的输入x也取决于上一个记忆细胞的值然后偷窥孔连接 peephole connection 就可以结合三个门来做计算。 35上面介绍了除RNN标准单元以外的其他两种单元下面介绍两种RNN模型。双向循环神经网络这个模型可以让你在序列的某点处不仅可以获取之前的信息还可以获取未来的信息。实现方式就是每个RNN单元都有两个一个管顺序一个管逆序。NLP就是使用LSTM单元的双向RNN但需要获取完整的句子。深层循环神经网络就是把RNN的一层变多层多层堆叠在一起原来的神经网络每一层都有一组激活值a前面讲的RNN都是一层a现在也堆成多层。如下图 36接下来讲GRU、LSTM在 NLP中的应用。词嵌入word embedding 这是词语表达的一种方式可以让算法自动理解类似的词比如男人女人、国王王后等。具体实现就是在前面31单词向量的基础上给每个单词建立特征特征可能有几百个这几百个特征的值就组成了这个单词的特征向量。把这几百个特征通过T-SNE二维化就能看出类似聚类的二维效果这样就可以通过一个单词的特征向量看出它跟其他单词有没有相似之处了。这就叫嵌入就是把一个单词嵌入到了一个几百维的空间中。 37词嵌入还能实现类比推理的功能具体就是在前面36的特征向量基础上让不同单词的特征向量相减在结果向量中有关联的特征所在维的值会很大而无关联的特征所在维的值约等于0这样只看结果向量就可以实现这一组单词和那一组单词的类比推理。实际应用中会用词嵌入学习算法来学习每个单词的特征值用余弦相似度测量两个词嵌入向量间的相似度 38那词嵌入学习算法怎么学习出每个单词的每个特征的值呢将嵌入矩阵随机初始化然后用梯度下降法学习出矩阵中的各个参数。使用词嵌入预测下一个词的过程如下图总之就是训练出词嵌入矩阵E或者用别人训练好的然后用单词的向量乘矩阵E得到这个单词的词嵌入值多个单词的词嵌入值组成新的多维一列向量这个向量进入softmax函数通过概率对比找到概率最大的单词。此外还有更简单高效的词嵌入算法: 1word2vec。 2Skip gram模型把上下文映射到了目标词上这是词嵌入算法一个不错的应用但缺点是softmax函数计算很慢。 3negative sampling 可以做到和skip gram类似的效果但更采用了更高效的学习算法。 39 情绪分类做法如下还是按前面38的操作算出每个单词的词嵌入值然后把这些值放入RNNRNN最后一步计算一个特征表示就能知道这句话是什么情绪了。 40NLP讲完了接下来讲机器翻译和语音识别。之前讲的语言模型( 前面31)是从零向量开始之后每一个y都是下一个的输入x而机器翻译不是从零向量开始是先用encoder网络计算出一系列向量来表示这个输入的句子然后decoder网络就能以这个句子开始用跟语言模型类似的方式预测输出这也叫条件语言模型。所以语言模型输出的是任意单词的概率而机器翻译输出的是最有可能的翻译的概率。如下图所示 41单词的词典有那么多单词在要输出翻译时不可能计算每一个单词的翻译概率而且我们不想要随机翻译的词只想要最好的集束搜索算法beam search 就是干这个的。集束搜索按照集束宽度的设定再根据概率先拿出(拿的过程还是前面40里的编码解码过程)多个词作为翻译的第一个词的候选然后给每个候选词算概率最大的下一个词如果集束宽度是10那现在就有10个句子目前每个句子两个单词一次加一个单词不断进行最终就会获得10个翻译的句子。 42当翻译出错时如何判断是RNN的错还是Beam search算法的错 RNN实际上是个编码器和解码器它会计算P(y|x)那就对比beam search的P(y|x)和去掉beam search的原始RNN计算的P(y|x)让他俩的概率分别和正确的概率比他们谁的预测结果是错误翻译的选择概率大于正确翻译的选择概率那就说明他错了。 43翻译的句子常有多个正确结果如何选择最好的呢用 blue score。 44 注意力模型attention model 他的做法是基于前面35的双向循环神经网络和LSTM在翻译时每生成一个单词就会计算在生成这个单词时应该放多少注意力给每个输入块 45 语音识别是在不同的时间和频率上看声波大小然后使用注意力模型把频率和声波大小预测为字符组成单词和句子。

查看全文

http://www.ho-use.cn/article/10823535.html