当前位置: 首页 > news >正文

ps课堂网站广东省建设厅官网证件查询

ps课堂网站,广东省建设厅官网证件查询,百度广告联盟官网入口,网站权重对优化的作用本文是LLM系列的文章#xff0c;针对《SeamlessM4T—Massively Multilingual Multimodal Machine Translation》的翻译。 SeamlessM4T#xff1a;大规模语言多模态机器翻译 摘要1 引言2 多模态翻译的社会技术维度2.12.22.3 3 SeamlessAlign#xff1a;自动创建语音对…本文是LLM系列的文章针对《SeamlessM4T—Massively Multilingual Multimodal Machine Translation》的翻译。 SeamlessM4T大规模语言多模态机器翻译 摘要1 引言2 多模态翻译的社会技术维度2.12.22.3 3 SeamlessAlign自动创建语音对齐数据4 SeamlessM4T模型5 自动和人工评估6 负责任的AI7 社会影响与结论7.1 增强世界准备度7.2 未来工作 摘要 如何创建Babel Fish一个可以帮助个人在任何两种语言之间翻译语音的工具虽然最近在基于文本的模型方面的突破已经将机器翻译的覆盖范围推到了200多种语言之外但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说传统的语音到语音翻译系统依赖于由多个子系统组成的级联系统来逐步执行翻译这使得可扩展和高性能的统一语音翻译系统遥不可及。为了解决这些差距我们推出了SeamlessM4T——大规模多语言和多模态机器翻译——一个单一的模型支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译和自动语音识别。为了构建这一点我们使用了100万小时的开放式语音音频数据来学习w2v-BERT 2.0的自监督语音表示。随后我们创建了一个多模态的自动对齐语音翻译语料库名为SeamlessAlign。经过过滤并结合人工标记和伪标记数据总计406000小时我们开发了第一个能够将语音和文本从英语翻译成英语的多语言系统。在Fleurs上SeamlessM4T为翻译成多种目标语言设定了一个新的标准在直接语音到文本翻译方面比以前的最先进技术提高了20%的BLEU。与强级联模型相比SeamlessM4T在语音到文本中提高了1.3个BLEU点在语音到语音中提高了2.6个ASR-BLEU点。在CVSS上与用于语音转换的两级级联模型相比Seamless M4T Large的性能增强了58%。对语音到文本翻译输出的初步人类评估显示出同样令人印象深刻的结果对于英语翻译24种评估语言的XSTS分数始终高于4满分5。对于英语方向我们发现在24种语言中有7种语言比WhisperLarge-v2的基线有了显著改进。为了进一步评估我们的系统我们开发了Blaser 2.0在质量估计方面与前代系统相比它能够以类似的精度对语音和文本进行评估。经过稳健性测试与当前最先进的模型相比我们的系统在语音到文本任务中对背景噪声和说话者变化的处理效果更好平均分别提高了38%和49%。至关重要的是我们评估了Seamless M4T的性别偏见并增加了毒性以评估翻译安全性。与最先进的相比我们报告翻译输出中的附加毒性降低了63%。最后这项工作中的所有贡献——包括模型、推理代码、由我们改进的建模工具包Fairseq2支持的微调配方以及重新创建SeamlessAlign未经过滤的47万小时的元数据——都是开源的可以通过https://github.com/facebookresearch/seamless_communication访问. 1 引言 2 多模态翻译的社会技术维度 2.1 2.2 2.3 3 SeamlessAlign自动创建语音对齐数据 4 SeamlessM4T模型 5 自动和人工评估 6 负责任的AI 7 社会影响与结论 人类交流是多感官的——我们接受来自几种模式的感官输入以动态的方式处理信息。在多语言环境中基于文本的机器翻译的进步产生了帮助个人用熟练程度较低的语言进行交流和学习的工具。也就是说虽然NLLB等基础模型将T2TT推向了200种语言之外但直接语音翻译尚未取得类似的进展。为了弥补这一差距我们创建了一个大规模的多语言和多模态机器翻译系统为下一代语音翻译技术铺平了道路。 使用新的数据和建模方法将S2ST、S2TT、T2TT和ASR组合在一个模型中我们的主要贡献如下。首先我们建立了一个与我们的语言覆盖范围相一致的新LID模型并在新构思的SONAR一个多语言和多模式句子嵌入空间的帮助下进行语音挖掘以创建一个超过47万小时的自动对齐语音翻译语料库。通过融合四个构建块1Seamless M4T NLLB一个大规模多语言T2TT模型2w2v BERT 2.0一个在未标记语音音频数据上预训练的语音表示学习模型3T2U一个文本到单元序列到序列模型和4HiFi GAN一个用于从单元合成语音的多语言声码器我们建立了一个统一的模型涵盖了从100种语言到英语100 eng的S2ST从英语到35种语言eng-35以及100 eng和eng-95语言的S2TT。值得注意的是与之前在S2ST上的工作相比SeamlessM4T能够执行从英语到35个方向的翻译S2ST主要提供英语翻译而不是英语翻译。在S2TT方面SeamlessM4T在S2TT翻译方面比以前的最先进技术提高了20%的BLEU。对S2TT输出的初步人类评估显示了同样令人印象深刻的结果对于英语翻译24种评估语言的XSTS分数始终高于4满分5。对于英语方向我们看到24种语言中有7种语言的Whisper-Large-v2的基线有了显著改进。然后我们评估了我们的模型的稳健性发现Seamless M4T在背景噪声和扬声器变化方面比更具稳健性。通过还包括增加毒性水平和性别偏见的结果我们希望激励未来针对缓解努力的工作。 为了促进可访问性我们开源了我们工作的所有贡献包括两种规模的模型以确保即使是计算资源有限的研究人员也能使用我们的工作。在下一节中我们通过关注Seamless M4T的下游可能性来讨论其潜在的社会影响。 7.1 增强世界准备度 我们生活的世界从未像现在这样相互关联——互联网、移动设备、通信平台和社交媒体的全球扩散使个人接触到比以往任何时候都更多的多语言内容。当前的社会秩序对一个人的“世界准备度”提出了要求这是衡量一个人在多语言世界中的能力的指标。世界准备度最初是在语言学习的背景下发展起来的它强调了能够用母语以外的语言进行交流的重要性这既有工具原因即就业或上学也有文化原因即成为全球公民。也就是说尽管我们认为语言习得应该仍然是提高一个人对世界的准备程度的关键机制但我们承认这样做需要许多人可能不具备的精神和物质资源。 SeamlessM4T支持的下游应用程序可以通过简化各种环境下的多语言交换实现按需访问以满足世界需求。正如T2TT在衔接多语言文本理解方面所取得的成就一样Seamless M4T也可能对语音产生同样的效果。研究表明与母语相反在母语中言语比阅读或写作更自然地习得当涉及到外语时这种趋势发生了逆转。换言之在外语环境中演讲通常被认为比阅读或写作更具挑战性。Seamless M4T支持的应用程序可以作为一种协同试点机制支持用户进行多语言对话并增强他们对语音密集交互的信心。随着基于语音的界面即音频助手、语音备忘录、实时转录等和听觉内容即播客、有声读物、短视频等越来越多地出现在人们的生活中SeamlessM4T支持的下游应用程序可以提供更丰富多样的多语言体验并且比基于文本的应用程序更自然、更动态。 从包容性的角度来看Seamless M4T对多模态的关注可能会在增强那些有无障碍需求的人和那些语言包含多个写作系统的人的世界准备能力方面产生有意义的影响如第2节所述。对于许多缺乏阅读或写作技能或无法依赖视力的人即盲人或视力障碍者来说语音辅助技术对于他们如何沟通和保持联系至关重要。翻译语音的能力不仅使这些群体能够更全面地获得母语之外的信息而且能够以更适合他们交际需求的方式进行翻译。此外认识到某些语言可能存在脚本差异SeamlessM4T提供了可供性有助于规避多脚本难题。对于没有标准化书写系统的语言对语音识别和翻译的投资可能有助于防止危害。我们希望我们的努力能够为这一重要运动作出贡献。 7.2 未来工作 与大多数技术一样收益的分配因用户人口统计和社会状况而异。虽然我们证明Seamless M4T可以通过降低跨语言交流的障碍来增强世界准备能力但一些用户在使用我们的工作时可能会比其他用户遇到更多困难。例如与许多其他语音技术一样Seamless M4T的ASR性能可能因性别、种族、口音或语言而异。此外我们的系统在翻译俚语或专有语时的表现名词在高资源语言和低资源语言之间也可能不一致。 S2ST面临的另一个挑战是与书面语言相比语音取决于即时接收和反馈。换句话说说话者在确定输出质量或在现场对话中进行“编辑”的能力有限。如果没有能力在反译或母语人士的帮助下进行计划和修订S2ST在涉及误译或毒性时可能会带来更高程度的互动风险。我们敦促使用SeamlessM4T微调或构建产品的研究人员和开发人员批判性地思考可以帮助用户规避这些潜在障碍的设计功能。与此相关的是我们认为SeamlessM4T驱动的应用程序最好被视为一种辅助翻译的增强设备而不是一种取代语言学习或可靠的人类口译员需求的工具。这一提醒在涉及法律或医疗决策的高风险情况下尤其重要。 最后语音不是口语文本它包括一套韵律即节奏、重音和语调和情感成分值得进一步研究。为了创建感觉有机和自然的S2ST系统应将更多的研究转向保持表现力的输出生成。此外Babel Fish的完美实现需要对低延迟语音翻译的研究进行更深入的投资。开发能够进行流式传输的系统即在输入句子呈现时逐步翻译输入句子可能会增加此类系统在行业或教育环境中的采用。我们希望Seamless M4T为这两个研究领域开辟新的可能性。
http://www.ho-use.cn/article/10822907.html

相关文章:

  • 十年经验网站开发公司软文范文大全1000字
  • 深圳品牌网站制作多少钱男女做羞羞事漫画网站免费
  • 做网站如何把支付宝微信吧seo顾问是干什么
  • 宁夏考试教育网站一家公司做两个网站吗
  • 网站建设样本南昌优化排名推广
  • 网站建设素材图外包岗
  • 北京网站建站公重庆建设厅网站公示公告栏
  • 企业网站建设方案大全做问卷网站
  • 新闻单位网站建设的意义网络推广企业网站推广策划书
  • 手机做外贸有什么好的网站郑州app开发定制多少钱
  • 宁波网站制作作门户网站是什么意思?
  • 网站源码官网一级a做爰片免费网站录像
  • 聊城市东昌府区建设路小学网站怎么用手机网站做软件
  • 域名注册完成后如何做网站滑县网站建设公司
  • 搞一个卖东西的网站怎么做闵行网站建设公司纸
  • 南充公司做网站办公软件培训
  • 河南网站建设哪家有临海做网站公司
  • 网站 项目方案合肥做一个网站要多少钱
  • 建什么网站能百度收录经典网站建设案例
  • 营销外包网站海淀区seo搜索优化
  • 福州网站推广排名莆田外贸专业建站
  • 西安高端网站开发腾讯云服务器centos做静态网站
  • 免费php外贸网站模板支付平台网站建设
  • 免费刷网站百度关键词秦皇岛做网站的公司
  • 外贸网站建设应该怎样选择语言工商营业执照查询网
  • 义网站建设推荐郑国华网页设计个人简历模板
  • 好的网站建设技术做ppt兼职的网站
  • 济南建设官方网站wordpress主题邮件模板下载失败
  • 网站title重复的后果公司域名更改 网站怎么做提示
  • python做网站开发巩义关键词优化公司电话