当前位置: 首页 > news >正文

公司网页网站建设ppt模板下载国家建筑网站

公司网页网站建设ppt模板下载,国家建筑网站,学校网站建设策划方案,直播网站开发好做么前言 长尾分布在分类任务中会提到这个名,这是因为长尾分布这个现象问题会导致在训练过程中会出现出错率高的问题#xff0c;影响了实验结果。 这里要说的是#xff0c;长尾分布是一种现象#xff0c;有的地方说是一种理论或定律#xff0c;我感觉这样说不太确切#xff0…前言 长尾分布在分类任务中会提到这个名,这是因为长尾分布这个现象问题会导致在训练过程中会出现出错率高的问题影响了实验结果。 这里要说的是长尾分布是一种现象有的地方说是一种理论或定律我感觉这样说不太确切因为长尾分布并非是一种普遍现象不能将所有的数据分布或者现象都强加于长尾分布这个概念上。 这个概念是对于IT行业来说比较常见的比如电商的销售现象——常见的产业巨头能够在实体产业上独树一帜但是电商的发展导致了很多小众或者说不太常见的商品的销售量很可能大于或者等于原来产业巨头的销售产量这就是在IT产业上的长尾分布的现象。 在机器学习和视觉识别的实际应用过程中长尾分布在某种程度上可以说是比正态分布更加广泛存在的一种自然分布现实中主要表现在少量个体做出大量贡献少量类别的样本数占据大量样本比例人们经常提到的“二八定律”Pareto法则就是长尾分布的形象概括。 对于长尾分布这个现象在图像或者视觉等任务中是经常遇到的。 现在也出现了NLP的领域这里我想提一下我看到的一个名次——齐夫定律(Zipfs Law).这个是应用在自然语言处理当中的主要是讲到了在自然语言的语料库里一个单词出现的频率与它在频率表里的排名成反比。所以频率最高的单词出现的频率大约是出现频率第二位的单词的2倍而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。 之所以提到这个齐夫定律是因为它和长尾分布一样都是关于幂定律概率分布的一种分布在自然语言处理中也说明了经常出现的词或者字也很容易对模型产生我们不想要的结果。 在Brown语料库中“the”、“of”、“and”是出现频率最前的三个单词其出现的频数分别为69971次、36411次、28852次大约占整个语料库100万个单词中的7%、3.6%、2.9%其比例约为632。大约占整个语料库的7%100万单词中出现69971次。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。 至此可以看出对数据做一下平衡处理是机器学习中需要考虑的一个问题了。 处理方法(相关工作) 下面的词汇和处理方法的划分来自于这篇文章【Bag of Tricks for Long-Tailed Visual Recognition with Deep Convolutional Neural Networks】其中里面说到的方法都是在CV方面上的应用不过我认为这种现象也是可以迁移到其他的研究方向上的。 先说一下一些相关的词汇 CE——交叉熵 Imbalance factor——定义为数据集中数据量最大的类与数据量最小的类的比值 CAM—— tailored for two-stage training and generates discriminative images by transferring foregrounds while keeping backgrounds unchanged. These fine-tuning methods (Cao et al. 2019) can be divided into two sections: deferred re-balancing by re-sampling (DRS) and by re-weighting (DRW).DRS和DRW其实是两种训练方法DRS是第一阶段使用 vanilla training schedule来训练第二阶段使用re-sample来微调而DRW在第二阶段使用re-weight来微调。 经典机器学习处理的方法 重采样法(Re-Sampling) 这里又分为两种方法——Over-Sampling和Under-Sampling Over-Sampling在训练的过程中多次采样数据集中数据量占比量较小的数据使得这些数据在训练时被多次用到从而缓解长尾数据分布的问题。Under-Sampling在训练中抛弃数据量占比较高的数据从而达到各个类别数据量的平衡以缓解长尾数据分布的问题。 【Bag of Tricks for Long-Tailed Visual Recognition with Deep Convolutional Neural Networks】一文中总结了一些方法Class-balanced sampling、Random under-sampling、Progressively-balanced sampling等本质上是修改了选择样本的概率P。 损失重加权(Re-Weight) 在训练模型的过程中增加损失中长尾数据的权重即是根据样本隶属类别“稀疏程度”来对该样本的损失进行加权包含越多样本的类别通常会被分配更低的权重从而平衡不同类别样本对损失函数的贡献。但该方法无法处理实际生活中的数据一旦长尾数据分布很严重该方法还容易引起优化的问题。 重新分配权重是根据不同类别的不同样本数决定其损失值的惩罚系数大小比如对于少数样本类其损失惩罚应该更大通常的做法是为交叉熵损失加上各个类别的权重系数该系数通常定义为类别样本数的倒数。 【Bag of Tricks for Long-Tailed Visual Recognition with Deep Convolutional Neural Networks】总结了相关的算法本质上是通过修改了loss来达到平衡的效果。 为什么说上述两种方法有一定的效果呢 在《BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition》一文中提到这样的常见方法虽然在分类效果上很好但是在表征能力上就不是很好原文内容如下 We firstly discover that these rebalancing methods achieving satisfactory recognition accuracy owe to fifier learning of deep networks. However, at the same time,they will unexpectedly damage the representative ability of the learned deep features to some extent. 这也就是说这样的平衡方法在一定程度上是损失了数据的特征也即表示特征的能力下降了 In this paper,we reveal that the mechanism of these strategies is to signifificantly promote classififier learning but will unexpectedly damage the representative ability of the learned deep features to some extent. 具体来说的效果如下图 从图中可以看出在平衡之后的数据特征开始分散了。 进一步的实验分析得到了下图的数据 两个图代表了两个数据集这里就以左图为例子说一下这两张图说明了什么 首先作者为了方便证明将训练的方法分为了两个阶段 representation learing也就是特征提取器的训练过程(FP和BP阶段不包含全联接层)classifer learning也就是分类器的训练阶段(最后的全联接层) 分了三种训练方法——plain training(就是用交叉验证这是分类常用的方法PS我认为这个交叉验证的作用就是充当了对照实验也就是说不做任何技术处理的前提下来看得到的的训练结果)、re-sampling和re-weight只看其中一列(固定其中一列在representation learning一定的前提下)RS的分类效果最好只看其中一行(同理)交叉验证CE的表示效果最好 存在的问题 re-balance方法还是存在问题的在文中提到 re-sampling 前提在数据extreme不平衡的前提下over-sampling存在过过拟合现象under-sampling: 存在欠拟合现象 re-weight 打乱原始数据的分布情况 深度学习方法 两阶段微调策略 下面的BBN只是其中的一种模型所谓的两阶段微调策略(Two-stage fifine-tuning strategies)所谓的两阶段是分为1不平衡的训练2平衡的微调两个部分。 BBN 这个方法将训练分为两个阶段。第一阶段像往常一样正常训练用于提取表征第二个阶段使用较小的学习率以Re-balancing的方式微调网络。 这里我提一个我看到过的今年刚提出的一种Two-stage方法实现处理长尾分布的框架。 在《BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition》一文中就提出了BBN网络用于更好地处理长尾分布。 如上图所示在文中作者将整个自己设计的BNN模型设计成为三个模块 conventional learning branchre-balancing branchcumulative learning(根据训练epochs的增加来不断修改参数 α \alpha α,通过这个参数来整合上述两个branch) 当然还有其他的方法很好的在长尾分布上效果很好的分类模型——LDAM和CB-Focal。 Mixup方法 【Bag of Tricks for Long-Tailed Visual Recognition with Deep Convolutional Neural Networks】一文中提出了两种Minxup方法其中一种是已经存在的Mixup方法 Input Mixup Maninfold Mixup 另一种就是作者提出的“fine-tuning after mixup training“的方法其实就是分成了两个阶段第一个阶段是mixup第二阶段就是微调模型训练(至于是怎么实现的文中没说明)。 文本分类中的长尾分布问题 上述的解决方法都是针对图像或CV领域来解决的但是在NLP中也有长尾分布的问题比如在【Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution】一文中提出了在多标签的文本分类问题的结局方法——提出新的Loss函数
http://www.ho-use.cn/article/10820291.html

相关文章:

  • 如何将网站提交给百度定制小程序开发哪家公司好
  • 网站怎样快速排名个人备案 做网站
  • 公司网站建设费用估计怎么制作自己的小程序
  • 餐饮 公司 网站建设网站一直百度上搜不到是怎么回事
  • 学校网站的建设目标是什么意思南昌广告制作
  • 龙华哪有做网站设计没有服务器怎么做网站
  • 淄博乐达信息技术网站花生壳可以做网站吗
  • 做购物网站赚钱吗页面设计包括什么
  • 网站导航面包屑哪里可以接做ppt的网站
  • 技术支持东莞网站建设小程序模板免费网站
  • 营销网站模版官方网站下载zoom
  • 做网站一般几个人完成宁波网页设计的技术要求
  • 阿里云服务器做网站安全吗云南建设网站首页
  • 网站定位有哪些杭州市在建工程项目
  • 邢台做网站优化价格网站的优点有哪些
  • 网站seo哪家好网站建设yingkagou
  • 阿里云自助建站和华为云自助建站工商局网站怎么做身份确认
  • 恩施网站建设什么程序做网站
  • 做暖dnf动态ufo网站wordpress编写博客时如何写出代码
  • 电商网站开发重难点营销型网站建站
  • 长沙品牌网站建设实力强徐州微网站开发
  • 陇西学做网站廊坊网站搭建
  • 网站开发属于哪个部门关键词优化一般收费价格
  • 自己网站做问卷调查asp.net做的小网站
  • 新手做网站最简单流程抚州南城网站建设
  • 百度网站降级的原因淘宝网站开发框架
  • 轻量应用服务器可以做网站吗皮肤科在线医生免费咨询
  • 汉中公司做网站微网站建设是什么
  • 接网站制作网站建设与推广的策划方案
  • 个人如何申请网站合肥网站排名推广