网站建设与网页设计大作业,台州市建设规划局网站班子成员,医疗网站备案,wordpress主题大前端dux5.0SpanBERT出自Facebook#xff0c;就是在BERT的基础上#xff0c;针对预测spans of text的任务#xff0c;在预训练阶段做了特定的优化#xff0c;它可以用于span-based pretraining。这里的Span翻译为“片段”#xff0c;表示一片连续的单词。SpanBERT最常用于需要预测文本…         SpanBERT出自Facebook就是在BERT的基础上针对预测spans of text的任务在预训练阶段做了特定的优化它可以用于span-based pretraining。这里的Span翻译为“片段”表示一片连续的单词。SpanBERT最常用于需要预测文本片段的任务。SpanBERT: Improving Pre-training by Representing and Predicting Spans SpanBERT所做的预训练调整主要是以下三点1.使用一种span masking来代替BERT的mask2.加入另外一个新的训练目标Span Boundary Objective (SBO)3.使用单个句子而非一对句子并且不使用Next Sentence Prediction任务。这样SpanBERT使用了两个目标函数MLM和SBO。 
1 Span Masking 给定一个tokens序列 X  ( x1 , x2 , . . . , xn )每次都会通过采样文本的一个片段span得到一个子集 Y ∈ X直到满足15%的mask。在每次采样过程中首先随机选取一个片段长度然后再随机选取一个起点这样就可以到一个span进行mask了span的长度会进行截断即不超过10并且实验得到p取0.2效果最好 另外span的长度是指word的长度而不是subword这也意味着采样的单位是word而非subword并且随取的起点必须是一个word的开头。 与BERT一样mask机制仍然为80%替换为[MASK]10%保持不变10%用随机的token替换。但不用的是span masking是span级别的即同一个span里的所有tokens会是同一种mask。 举例说明 在SpanBERT中不是对标记进行随机掩码而是对连续片段进行掩码.   2 Span Boundary Objective 这个新增的预训练任务概括起来其实就是仅使用span边界的tokens的表征来预测该span内的这些mask的tokens原来对应哪些tokens这其实与mlm类似但它不使用上下文的所有tokens的表征。对masked span中的整体内容进行预测。 如果模型只使用片段边界标记表示来预测任何掩码的标记那它是如何区分不同的被掩码的标记呢比如为了预测掩码的标记我们的模型只使用片段边界标记表示和 然后为了预测掩码的标记 我们的模型还是使用和。那这样的话模型如何区别不同的掩码标记呢因此除了片段边界标记表示模型还使用掩码标记的位置嵌入信息。这里的位置嵌入代表了掩码标记的相对位置。假设我们要预测掩码标记。现在在所有的掩码标记中我们检查掩码标记的位置。 如下图所示掩码标记是所有掩码标记的第二个位置。所以现在除了使用片段边界标记表示我们也使用该掩码标记的位置嵌入即。通过外边界tokens的表征【R5】、【R10】和相对位置embedding用它去预测token 与BERT中的MLM任务一样。  计算公式如下所示 其中s表示span的起始位置s-1表示的是span的左侧边界tokene表示的是span的结束位置e1表示的是span的右侧边界tokenp表示的是位置信息。   使用预测掩码标记训练过程中将 喂给一个分类器它返回预测的词表中所有单词的概率分布。 在MLM目标中为了预测掩码标记我们只要使用标记标记 即可。将喂给一个分类器它返回预测的词表中所有单词的概率分布。 SpanBERT的损失函数是MLM损失和SBO损失的总和。我们通过最小化这个损失函数来训练SpanBERT。在预训练之后我们可以把预训练的SpanBERT用于任何下游任务。  
3 Single-Sequence Training BERT中包含着一个next sentence prediction的任务这个任务的input是两个text的序列 , 预测二者是否是上下文。作者通过实验发现这样的一种设置会比去掉NSP objective而只使用一个sequence的效果要差。因而作者猜测single-sequence training比bi-sequence trainingNSP的效果要好分析原因如下 
模型能够从更长的full-length contexts中受益更多以从另外一个document中得到的context为条件往往会给masked language model中添加许多noise。因此作者去掉了NSP objective以及two-segment sampling procedure并仅仅采样出一个单独的continuous segment这个segment中至多有512个tokens。 Reference: https://helloai.blog.csdn.net/article/details/120499194?spm1001.2101.3001.6650.1utm_mediumdistribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoverydepth_1-utm_sourcedistribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoveryutm_relevant_index2https://helloai.blog.csdn.net/article/details/120499194?spm1001.2101.3001.6650.1utm_mediumdistribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoverydepth_1-utm_sourcedistribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-1-120499194-blog-124881981.pc_relevant_3mothn_strategy_recoveryutm_relevant_index2