使用 Heygem Server 快速定制生成数字人视频

marvin113 · 2025 年5 月 26 日 12:15

本教程将指导你如何在 Olares 里使用 Heygem 提供的 API 接口来生成数字人视频。

准备条件

获取 Heygem Server: 打开 Olares 应用市场，在 "实用工具"类别中找到并安装 Heygem。安装完成后打开 Heygem，看到接口列表说明安装成功。同时可从页面获取 Heygem 域名：https://318a026b0.{yourOlaresID}.olares.cn/。

image2918×1566 192 KB
获取 Hoppscotch: 在 Olares 应用市场的 "实用工具"类别中找到并安装 Hoppscotch。
导入 Heygem API 接口到 Hoppscotch：

a. 打开Hoppscotch，在右侧集合选项里，点击 Import/Export 按钮，并选择 Import from Hoppscotch。

b. 将 Heygem API 配置文件 heygem.json导入。导入成功可以看到新增集合下列出的 Heygem 接口选项。

image3018×860 208 KB
安装 Hoppscotch Chrome 插件：在 Chrome 应用商店搜索并安装 Hoppscotch 插件。
将 Heygem Server 的域名添加到 Hoppscotch 插件中，让 Hoppscotch 能够访问 Heygem Server。

image1064×690 34 KB

这一步需要需要一个用于数字人合成的原始视频，并将原始视频分割成静音视频和音频文件。

使用 ffmpeg 命令将素材视频的音视频分离：
ffmpeg -i input.mp4 -c:v copy output_video.mp4 -c:a libmp3lame -q:a 4 output_audio.mp3

注意：
生成的 output_audio.mp3 文件需要转换为 wav 格式。直接使用 mp3 格式可能会导致 Heygem 报错。具体的转换方法可以使用其他音频处理软件或 ffmpeg 命令。
将转换后的音频文件 output_audio.wav 通过 Olares 的文件管理器上传至以下路径： Data/heygem/heygem_data/voice/data/temp/

在 Hoppscotch 右侧的 Heygem 接口选项下，选择调用 v1/preprocess_and_tran 接口进行模型训练。

image1280×782 164 KB

Body 配置：
- reference_audio：上传到 Olares files 的音频文件路径。
- format": “wav”：音频文件格式，设置为 “wav”
- lang：请替换为你的音频语言 (例如: zh, en)

点击 Send 发送请求。返回模型训练的结果Response:返回包含 reference_audio_text 和 asr_format_audio_url 等信息的 JSON。

将合成的音频文件 (new.wav) 和静音视频文件 (output_video.mp4) 使用 Olares 文件管理器上传至以下路径： Data/heygem/heygem_data/face2face-data/temp/
使用 Hoppscotch 调用 easy/submit 接口合成视频：

image1280×751 132 KB
- audio_url: 上传的合成音频文件名
- video_url: 上传的静音视频文件名
- code，chaofen，watermark_switch，pn: 保持默认值即可
点击 Send，开始视频合成。
使用 Hoppscotch 调用 easy/query 接口查询视频合成进度。

image1280×777 133 KB

返回包含合成进度信息的 JSON。当 status 为 2 且 msg 为 “任务完成” 时，result 字段包含生成的最终视频文件路径。