当前位置: 首页 > news >正文

网站建设与网页设计大作业台州市建设规划局网站班子成员

网站建设与网页设计大作业,台州市建设规划局网站班子成员,医疗网站备案,wordpress主题大前端dux5.0SpanBERT出自Facebook#xff0c;就是在BERT的基础上#xff0c;针对预测spans of text的任务#xff0c;在预训练阶段做了特定的优化#xff0c;它可以用于span-based pretraining。这里的Span翻译为“片段”#xff0c;表示一片连续的单词。SpanBERT最常用于需要预测文本…         SpanBERT出自Facebook就是在BERT的基础上针对预测spans of text的任务在预训练阶段做了特定的优化它可以用于span-based pretraining。这里的Span翻译为“片段”表示一片连续的单词。SpanBERT最常用于需要预测文本片段的任务。SpanBERT: Improving Pre-training by Representing and Predicting Spans SpanBERT所做的预训练调整主要是以下三点1.使用一种span masking来代替BERT的mask2.加入另外一个新的训练目标Span Boundary Objective (SBO)3.使用单个句子而非一对句子并且不使用Next Sentence Prediction任务。这样SpanBERT使用了两个目标函数MLM和SBO。 1 Span Masking 给定一个tokens序列 X ( x1 , x2 , . . . , xn )每次都会通过采样文本的一个片段span得到一个子集 Y ∈ X直到满足15%的mask。在每次采样过程中首先随机选取一个片段长度然后再随机选取一个起点这样就可以到一个span进行mask了span的长度会进行截断即不超过10并且实验得到p取0.2效果最好 另外span的长度是指word的长度而不是subword这也意味着采样的单位是word而非subword并且随取的起点必须是一个word的开头。 与BERT一样mask机制仍然为80%替换为[MASK]10%保持不变10%用随机的token替换。但不用的是span masking是span级别的即同一个span里的所有tokens会是同一种mask。 举例说明 在SpanBERT中不是对标记进行随机掩码而是对连续片段进行掩码. ​ ​ 2 Span Boundary Objective 这个新增的预训练任务概括起来其实就是仅使用span边界的tokens的表征来预测该span内的这些mask的tokens原来对应哪些tokens这其实与mlm类似但它不使用上下文的所有tokens的表征。对masked span中的整体内容进行预测。 如果模型只使用片段边界标记表示来预测任何掩码的标记那它是如何区分不同的被掩码的标记呢比如为了预测掩码的标记​我们的模型只使用片段边界标记表示​和 ​然后为了预测掩码的标记​ 我们的模型还是使用​和​。那这样的话模型如何区别不同的掩码标记呢因此除了片段边界标记表示模型还使用掩码标记的位置嵌入信息。这里的位置嵌入代表了掩码标记的相对位置。假设我们要预测掩码标记​。现在在所有的掩码标记中我们检查掩码标记​的位置。 如下图所示掩码标记​是所有掩码标记的第二个位置。所以现在除了使用片段边界标记表示我们也使用该掩码标记的位置嵌入即​。通过外边界tokens的表征【R5】、【R10】和​相对位置embedding用它去预测token ​与BERT中的MLM任务一样。 ​ 计算公式如下所示 其中s表示span的起始位置s-1表示的是span的左侧边界tokene表示的是span的结束位置e1表示的是span的右侧边界tokenp表示的是位置信息。  ​ 使用预测掩码标记训练过程中将 喂给一个分类器它返回预测的词表中所有单词的概率分布。 在MLM目标中为了预测掩码标记我们只要使用标记标记 即可。将喂给一个分类器它返回预测的词表中所有单词的概率分布。 SpanBERT的损失函数是MLM损失和SBO损失的总和。我们通过最小化这个损失函数来训练SpanBERT。在预训练之后我们可以把预训练的SpanBERT用于任何下游任务。  3 Single-Sequence Training BERT中包含着一个next sentence prediction的任务这个任务的input是两个text的序列 , 预测二者是否是上下文。作者通过实验发现这样的一种设置会比去掉NSP objective而只使用一个sequence的效果要差。因而作者猜测single-sequence training比bi-sequence trainingNSP的效果要好分析原因如下 模型能够从更长的full-length contexts中受益更多以从另外一个document中得到的context为条件往往会给masked language model中添加许多noise。因此作者去掉了NSP objective以及two-segment sampling procedure并仅仅采样出一个单独的continuous segment这个segment中至多有512个tokens。 Reference: https://helloai.blog.csdn.net/article/details/120499194?spm1001.2101.3001.6650.1utm_mediumdistribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoverydepth_1-utm_sourcedistribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoveryutm_relevant_index2https://helloai.blog.csdn.net/article/details/120499194?spm1001.2101.3001.6650.1utm_mediumdistribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoverydepth_1-utm_sourcedistribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoveryutm_relevant_index2
http://www.ho-use.cn/article/10817552.html

相关文章:

  • 河南做网站公司有哪些天河手机网站建设
  • 发任务做任务得网站各大行业网站
  • 烟台海阳市专业做网站国内十大搜索引擎
  • 北京网站模板下载公司网站免费自建
  • 一鸣东莞网站建设公司flash素材网站有哪些
  • 建设工程招标投标管理信息网站签名字体在线生成器
  • 梧州网站建设加强二级部门网站建设
  • 做网站记者好吗wordpress微信公众号模板
  • 专门做照片书的网站手机怎么创建网页快捷方式
  • 卢松松网站模板做移动网站优化优
  • 同城信息网站建设wordpress支持md么
  • 找在家做的兼职上什么网站好wordpress 公告栏
  • 快速设计一个网站trswcm网站建设
  • 社保网站减员申报怎么做深圳生产型企业网站建设专业
  • 网站推广经验杂谈dj音乐网站建设
  • 上海哪家做网站好微信微网站开发策划
  • 龙华做网站多少钱wordpress设置新窗口打开链接
  • 给别人做网站挣钱满天星建设网站
  • 做招标代理应关注的网站庆阳工程建设网站
  • 长沙官网网站建设哪家好做网站怎么做的
  • 换空间对网站的影响百度指数明星搜索排名
  • 买医疗产品的网站建设标志设计的三要素
  • ie浏览器哪个做网站稳定网站开发维护需要哪些岗位
  • 网站建设项目开发书连江网站建设
  • 做百度网站排名软件最大的免费网站建设
  • 杭州集团网站建设方案项目组网站建设方案书
  • 网站的ftp服务器微信crm系统软件
  • 夸克看网站要钱吗广告设计与制作模板
  • 做网站要买什么企业做定制网站的好处
  • 网站 建设 汇报做网站背景图怎么插