原神——提瓦特大陆语音提取解析

本文最后更新于：2024年5月7日下午

语音训练需要优质的数据，我们尝试使用原神中的语音进行训练，首先需要提取并解析其中的语音信息。

感谢 B站大佬的分享

处理流程

找到数据
解压数据
解密数据

数据处理

找到数据

在 PC 版原神中，音频文件放在游戏文件夹中，我的路径为：

D:\Program Files\Genshin Impact\Genshin Impact Game\YuanShen_Data\StreamingAssets\AudioAssets\Chinese

3.7 版原神共 114 个语音文件 9.38 g，将其中的数据拷贝出来。

解压数据

拿到的数据均为使用 Extractor2.5 解压数据

下载工具后解压，打开 exe 文件即可运行，选择所有刚刚生成的语音文件作为输入文件，选择输出文件夹：

开始解压：

之后反选所有数据，选择解压即可。

共拿到语音 72021 条。

解密数据

解压直接得到的数据无法听到语音，需要进行解密：

需要用到项目： https://github.com/vgmstream/vgmstream

进入项目的 release 下载需要的编译文件（以我当前 Win 为例）：

下载链接

下载后解压，得到可执行文件，将其加入系统路径

这样就可以使用 vgmstream-cli.exe 直接运行解密了

编写 Python 脚本：

import mtutils as mt
import os


target_file_path_list = mt.glob_recursively('Temp', 'wav')

for target_file_path in mt.tqdm(target_file_path_list):
    os.system(f'vgmstream-cli "{target_file_path}"')
    mt.remove_file(target_file_path)
    mt.file_rename(target_file_path + '.wav', target_file_path)
    pass