技术支持 深圳网站建设贝尔利,网站改版后不收录,西安网站建设风尚,树莓派 做网站1. BERT 3亿参数 30亿个词
在输入和loss上有创新 两个句子拼起来放到encoder–句子对 cls-class分类 sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量 位置编码不用sin cos#xff0c; 让网络自己学习
bert–通用任务 encoder 是双向的#xff0c;…1. BERT 3亿参数 30亿个词
在输入和loss上有创新 两个句子拼起来放到encoder–句子对 cls-class分类 sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量 位置编码不用sin cos 让网络自己学习
bert–通用任务 encoder 是双向的两个方向的信息都可以看到 预测mask是谁。 改动让模型在做微调的时候不要看到mask就做预测 4. QA 1 对每个词每个token 学习一个固定长度的向量 2 bert 用一个词段做向量表示 3 15% 中的10% 4 大量用在cv上图片可以扣很多小块出来是有空间关系的模拟语言模型的关系 6 用小一点的bert模型多用几个卡每个gpu存一部分的模型。 7 gpt等 预训练任务本身都会有改进 8 bert之后的论文