不可发布违法信息,一旦发现永久封号,欢迎向我们举报!
百科|常识分享
分享各种百科|日常
手表常识网 > 餐饮行业新闻资讯 > 百科|常识 >  幻兽帕鲁抄袭宝可梦模型更多证据!CEO曾展示AI生成宝可梦 无文本 NLP:从原始音频生成富有表现力的语音


  • 【莆田鞋厂家分类】
  • 【奢侈大牌包包厂家分类】
  • 【潮牌奢侈服饰鞋子厂家分类】
  • 【名表厂家分类】

厂家货源分类区域

幻兽帕鲁抄袭宝可梦模型更多证据!CEO曾展示AI生成宝可梦 无文本 NLP:从原始音频生成富有表现力的语音

发布时间:2024-09-18 16:45:21  来源:互联网整理  浏览:   【】【】【

幻兽帕鲁抄袭宝可梦模型更多证据!CEO曾展示AI生成宝可梦 无文本 NLP:从原始音频生成富有表现力的语音 

幻兽帕鲁抄袭宝可梦模型更多证据!CEO曾展示AI生成宝可梦

《幻兽帕鲁》发售之后获得一塌糊涂,目前游戏销量超过500万份,Steam玩家峰值已突破158万,已称霸多个数据统计榜单(趋势、热门、最多人游玩等)。然而,这款生存游戏的成功引发了关于其角色设计与宝可梦系列游戏相似和剽窃的讨论。

尽管《幻兽帕鲁》的实际游戏玩法与任天堂的《宝可梦》系列有着巨大的差异,但社交媒体上的辩论普遍围绕着 其角色设计是否明显受到宝可梦影响,以及是否可以认定为抄袭而展开。

一位匿名的推特用户出现声称提供了“不仅是设计灵感,而且是实际游戏资产抄袭”的证据。用户‘Byo’发布了视频,比较了《幻兽帕鲁》的游戏内3D模型与宝可梦的模型,并声称展示了它们可能被复制的证据。

虽然用户比较的模型似乎并非一对一的复制,但他声称,这些模型的比例几乎与从Switch的《宝可梦朱紫》游戏中导出的宝可梦模型完全相同。

根据两位接受VGC采访的经验丰富的AAA游戏艺术家的说法,推特上的模型比较很可能证明 《幻兽帕鲁》的角色模型确实是基于宝可梦的资产改动的。

游戏行业另一位资深角色艺术家同意模型比较可能是抄袭的有力证据。“线框网格看起来不同,所以它们不是相同的模型,但它们非常接近,可能是在宝可梦模型的基础上构建,并进行了一些变化,目的是为了让它们不完全相同。”

此外,还有博主发现,开发商Pocketpair曾做过一款名叫《AI: Art Imposter》的游戏,其核心机制就是用AI生成图形。CEO还展示过如何使用AI生成宝可梦,不过,这位博主也表示,不能因此就确定《幻兽帕鲁》使用了AI设计怪物,只是CEO很喜欢使用AI,他们确实聘请了相关人员来设计《幻兽帕鲁》。

但是从玩家分享的一些图片来看,很大的可能《幻兽帕鲁》应该是对《宝可梦》进行了AI创作,因此根据开发商的说法来看,游戏开发初期的时候工作人员仅有4人。而像宝可梦的开发商GF社,单单负责模型开发的就由一个单独的公司负责。很明显以《幻兽帕鲁》的开发人数来看,很难支撑起这么多的独立建模工作。

而据Genki_JPN消息,包括“Palworld”、“宝可梦盗版”以及“任天堂法务部”等多个相关词条已经登上了日本推特趋势。截止目前任天堂和宝可梦公司都为作出任何的官方回复。

《幻兽帕鲁》开发商PocketPair的CEO Takuro Mizobe发文表示,自从游戏发售以来,他看到了很多针对团队的诽谤和攻击,甚至还有死亡威胁。而Takuro Mizobe也呼吁,希望玩家们不要再作出类似的行为,对此他将会不胜感激。

而面对抄袭论,有外网网友自制了一张大图,将《宝可梦》中的各种精灵设计和《勇者斗恶龙》中的进行了逐一对比,并贴心配文表示,只要让它们看起来不一样就不是抄袭了,疑似暗指宝可梦抄袭勇者斗恶龙。

发布于:广东


无文本 NLP:从原始音频生成富有表现力的语音

GTP-3,当将书面文字作为输入时,他们几乎可以针对任何主题生成极其逼真的文本。此外,它们还提供了有用的预训练模型,可以针对各种困难的自然语言处理 (NLP) 应用程序进行微调,包括情感分析、翻译、信息检索、推理和摘要

然而,有一个重要的限制:这些应用程序主要限于具有适合训练 AI 模型的非常大的文本数据集的语言。

我们正在推出生成性口语模型 (GSLM),这是第一个摆脱这种对文本依赖的高性能 NLP 模型。GSLM 利用最近在表征学习方面的突破,使其仅从原始音频信号直接工作,无需任何标签或文本。它为地球上可能使用的每种语言打开了无文本 NLP 应用程序新时代的大门——即使是那些没有重要文本数据集的语言。

GSLM 还支持 NLP 模型的开发,这些模型结合了口头语言的全方位表达能力。

以前,将 NLP 应用程序连接到语音输入意味着研究人员必须首先训练一个自动语音识别 (ASR) 系统,这是一个引入错误的资源密集型操作,在编码偶然语言交互方面做得很差,并且只能用于少数语言。通过无文本 NLP,我们希望让 ASR 过时,并以端到端的方式工作,从语音输入到语音输出。我们认为学龄前儿童仅从原始感官输入和音频交互中学习语言的能力是该研究可能实现的未来进步的一个令人兴奋的模板。

我们现在正在分享我们的基线 GSLM 模型,它包含三个组件:一个将语音转换为离散单元的编码器,该单元代表口语中经常出现的声音;一个自回归的、基于单元的语言模型,经过训练可以根据之前看到的内容预测下一个离散单元;以及将单位转换为语音的解码器。

无文本 NLP 的广泛优势

NLP 领域几乎总是使用书面文本来训练模型。这对于像英语这样的语言非常有效,因为这些语言拥有适合训练的大量文本数据集。但是世界上大多数语言都缺乏这些广泛的数据集,这意味着它们在很大程度上无法从 NLP 技术中受益。颠覆这种动态是一项激动人心的挑战,需要 Facebook 人工智能研究人员组成的多学科团队在信号处理、语音处理、NLP 和心理语言学方面具有专业知识。

我们的研究通过在无文本输入上训练语言模型开辟了新天地,出于多种原因,这非常重要。

首先,无文本 NLP 技术应该让 AI 更具包容性,并且能够模拟比今天更丰富的语言。这种方法开辟了为任何口语训练模型的可能性。

其次,通过获得口头语言的完整表现力,模型应该包含细微差别和语调;编码讽刺、愤怒和不确定性;并使用诸如笑声、打哈欠和嘴巴咔哒声等发声。由于口头语言的丰富表现力,无文本 NLP 实际上可能比使用文本训练模型更好,即使在像英语这样的文本丰富的语言中也是如此。

第三,研究人员应该能够训练音频优先体验模型,例如播客、广播节目和社交音频应用程序,而无需注释或训练 ASR。无文本 NLP 开启了一系列前所未有的应用程序的可能性,例如多语言视频游戏的在线表达翻译,或存档音频的内容搜索和摘要。

最后,这些模型可以帮助发育心理学家以及言语和语言临床医生预测婴儿学习说话和理解言语的能力如何受到不同语言的语言输入差异的影响。

除了帮助推进这些更广泛的研究目标之外,GSLM 还为当今从事 NLP 的人员提供了具体的好处。研究人员将能够通过简单的下一个声音单元预测任务预训练模型,并针对端到端任务对它们进行微调,而无需任何文本。

纯音频语音到语音翻译系统

. 进一步的工作将解决标准 NLP 任务的无文本版本,例如情感分析、文档检索、摘要等。

构建和评估基线模型

GSLM 首先构建我们的基线模型并在两个简单的端到端任务上对其进行评估。第一个是离散再合成,其中输入波被编码为一系列离散单元,我们称之为伪文本,然后用于在模型的“声音”中重新合成输入。第二个任务是语音生成,其中语言模型用于在通过编码器的输入提示上无条件或有条件地对新的伪文本进行采样。

我们模型的架构。编码器将语音波形转换为离散单元(S2u),解码器进行相反的映射(u2S),基于单元的语言模型对单元序列(伪文本)的分布进行建模。

我们使用标准的因果 Transformer 和Tacotron 2进行语言建模,一个标准的文本到语音系统,作为我们的解码器。

我们在 6,000 小时的 Libri-Light 和 Librispeech(大量有声读物)上训练了我们的编码器和基于单元的语言模型 (uLM),并在 Librispeech 和 LJspeech 上训练了解码器。整个堆栈是在原始音频的自我监督下训练的,没有文本或标签,语言模型和文本到语音组件是在从原始音频派生的伪文本上训练的。

在比较这些不同的模型时,我们无法分析生成的伪文本,因为这些单元没有与字母或音素一一对应。好的模型通常使用 100 个或更多单位,并且它们通常编码比音素短的语音片段。所以我们使用预训练的 ASR 将生成的音频转换回文本。这使我们能够使用音素错误率 (PER) 来衡量重新合成音频的可懂度——原始输入的音素与 ASR 重新转录的音素的比较——以及有条件或无条件生成的语言质量和多样性使用曲线下面积 (AUC) 度量的音频。AUC 是通过在一系列“温度”范围内对句子进行采样获得的,我们将其定义为语言模型的创造性程度。温度越低,模型越刚性;温度越高,模型的可变性越大。

两个评估指标,AUC 和 PER

在执行这些测量时,我们发现了几件事。首先,量化器使用多少个离散单元很重要:数字越大,在声学级别上产生更好的结果,尽管以更高的比特率为代价。其次,在语言层面也有类似的趋势,但在某些情况下,使用过多的单位会变得有害。第三,不同的编码器产生了非常不同的结果,HuBERT 提供了最好的整体结果。第四,自动生成指标与人的相关性很好。最后,这些指标是通过计算速度更快的零样本指标来预测的零资源语音基准,作为快速迭代的良好代理。

三个编码器(wav2vec、CPC 和 HuBERT)的自动和人工指标(越低越好)以及用于比较的 LogMel,它们在三个字典大小(50、100 和 200)上使用 k 均值进行量化。x 轴是单元的结果比特率。

以下是我们的最佳模型(100 个单元上的 CPC 或 HuBERT)无条件生成的一些样本,这些样本在 Libri-Light 6k 上进行了训练。

编码和解码韵律

虽然我们的编码器发现的单位不是音素,但它们具有许多相同的属性:它们编码语音对比(例如区分“pa”和“ba”),同时忽略说话者和声道信息。此外,与音素一样,它们通常会忽略更多具有表现力的全局语音属性,例如语调和节奏。这被称为韵律。所以我们的第二步是通过改进编码器和解码器来捕捉韵律。

为此,我们训练一个变分自编码器,利用矢量量化来获取唯一的潜在表示。这个所谓的

VQ-VAE系统被输入音高 (F0) 信息以及一个简化的文本到语音系统,该系统输入上述离散的 - 非重复的 - 伪电话单元;来自 VQ-VAE 的量化音高;和学习的说话人嵌入。

在我们的无监督解缠编码器-解码器的架构中,伪文本单元在左上角编码,量化音高单元在中间,扬声器嵌入在底部。在右侧,解码器重建波形。

我们在 LJspeech(单扬声器)和 VCTK(多扬声器)上评估了这种架构,再次发现基于 HuBERT 的单元在客观指标和主观评估分数方面都提供了非常好的结果。

与原始音频(Ground Truth、GT)和三种类型的离散单元(CPC、HuBERT、VQ-VAE)相比,我们的系统在两个数据集(LJ:单个扬声器和 VCTK:多个扬声器)上训练时的性能。我们从三个维度评估重新合成的内容:使用自动技术的内容、F0 和扬声器,以及全球范围内的人工评估(平均意见得分,MOS)。

由于语音和韵律单元实现了高度的说话人独立性,我们的模型能够通过改变输出说话人嵌入来执行语音传输,同时保留语音单元和原始输入的韵律:

它还可以用作语音编解码器,仅传输语音嵌入以及单元和韵律的离散代码。我们的系统与当前的语音编解码器相比具有优势,同时使用的比特率要低得多。准确地说,这代表了 20 倍的压缩因子,一种具有类似压缩质量的标准编解码器,与使用矢量量化变分自动编码器的最新研究语音编解码器相比是 2 倍。然而,虽然我们的系统实现了高压缩率,但它专门用于语音,无法编码其他形式的音频,例如音乐。

主观再合成分数(MUSHRA,越高越好)作为不同编解码器的比特率(越低越好)的函数。我们的超低比特率无监督编解码器是绿色的。

我们的最后一步是在 LM 中加入表达韵律,并联合建模语音的内容方面及其韵律方面。我们引入了一个多流因果变换器,其中输入和输出层有多个头,我们选择建模的每个语音通道一个。在这里,我们使用了三个通道:伪音素单位、持续时间和量化音高。

多流因果变换器,其中离散伪音素单元 u 补充有它们的持续时间 d 和它们的量化对数音高 lf。

与我们的基线模型一样,这个韵律 GSLM 是从有声读物的原始波形中训练出来的。添加这些额外的通道和任务可以提高 LM 在单元的困惑度分数方面的性能。我们还展示了系统现在可以为同一个提示生成多个逼真的韵律“修复”(我们强加语音内容并仅采样持续时间和音高)。

韵律“修复”任务,我们修复伪语音单元,让系统为其生成不同的韵律(这里,韵律的前三秒也是固定的)。

这个经过训练的模型还可以联合生成与提示的表达风格一致的新颖内容和韵律。

发布于:江西[db:内容]?

责任编辑:
热门阅读排行
© 手表常识网