Hume AI 发布其收款开源了语音模型: TADA
比同类 LLM TTS 快 5 倍以上
1000+ 测试样本零幻觉
可以跑在手机和边缘设备上,无需云端推理
支持中文等10种语言
人类评测自然度和音色相似度排名第二,超过多个更大规模训练的系统
同样 2048 token 窗口,能容纳约 700 秒音频,传统方案只能撑 70 秒
同步转录:生成语音的同时就出文字,不用再跑一遍语音识别,零额外延迟。
资源消耗低:每秒音频只需要 2-3 帧,其他方案通常需要 12.5 到 75 帧。
互联网充电站
比同类 LLM TTS 快 5 倍以上
1000+ 测试样本零幻觉
可以跑在手机和边缘设备上,无需云端推理
支持中文等10种语言
人类评测自然度和音色相似度排名第二,超过多个更大规模训练的系统
同样 2048 token 窗口,能容纳约 700 秒音频,传统方案只能撑 70 秒
同步转录:生成语音的同时就出文字,不用再跑一遍语音识别,零额外延迟。
资源消耗低:每秒音频只需要 2-3 帧,其他方案通常需要 12.5 到 75 帧。
互联网充电站