图片
编著/排版:卒見
当今咱们责任会议的时,齐会用到灌音转翰墨器用,我个东谈主也会在责任和文娱的时辰用到这些器用,这里就给群众共享几款不不异的语音转翰墨器用,齐是免费、开源名堂!
01
Voice-Pro
AI 语音调度和多话语翻译器用
Voice-Pro 是一款由AI驱动的Web开源运用设施,旨在透澈调动多媒体施行贬责。
图片
它集转录、翻译和翰墨转语音为一体,提供简易直不雅的可视化操作界面,复旧及时转录和翻译,以及批量贬责口头。
图片
它具有 YouTube 视频下载、语音折柳、语音识别、翻译和文本转语音的全面功能。
图片
Voice-Pro 安设。
①开动configure.bat 并start.bat
②克隆或下载最新版块(源代码 zip)GitHub 版块
git clone https://github.com/abus-aikorea/voice-pro.git
③开动configure.bat,在 Windows 上安设 git、ffmpeg 和 CUDA
④衔接互联网,这个经由可能需要一个多小时,看系统情况。
⑤在安设经由中,请勿关闭 Windows-Command 窗口。
图片
⑥启动 Voice-Pro。Web-UI 将自动开动。
初次开动时,请先安设 Voice-Pro。
淌若在安设经由中出现问题,请删除 installer_files 文献夹并再次开动 start.bat。
图片
该名堂是用于音频贬责的抽象 Gradio WebUI,具有 Voice Changer、零样本语音克隆(E2、F5-TTS)、YouTube 下载、语音艰涩 (UVR5)、文本转语音 (Edge-TTS) 和多话语翻译。适用于施行创建者和开采东谈主员。
Voice-Pro源代码:
https://pan.quark.cn/s/ccbde0108f7f
开源地址:
https://github.com/abus-aikorea/voice-pro
02
PodCastLM
PDF 生成汉文播客!
一款开源免费的器用,不错将 PDF 施行滚动为安妥音频播客的当然对话,并输出为 MP3 文献。
操作很浅薄:
①咱们不错径直将需要调度的施行上传到操作页面,这里可上传1M以内的PDF文献;
图片
②然后缔造口吻、时长等,生成播客,你不错检讨到文本转头施行,以及整理后的剧本施行!
图片
③点击底部音频按钮,即可播放面前整理好的施行!
图片
开源地址:
https://github.com/YOYZHANG/PodCastLM
在线地址:https://ai.podcastlm.fun
03
video-srt-windows
自动识别视频语音生成字幕文献的器用
video-srt-windows是一个不错识别视频语音自动生成字幕SRT文献的开源 Windows-GUI 软件器用。
图片
它聘用 Go+walk 开采,仅复旧 Windows 系统。基础旨趣是肯求在线语音转翰墨的做事,超出免费额度需付费。另外还加入了导出字幕文献和翻译功能。
VideoSrt下载:
https://pan.quark.cn/s/ebd97ead46e3
开源地址:
https://github.com/wxbool/video-srt-windows
https://gitcode.com/gh_mirrors/vi/video-srt-windows
04
buzz
音频转录与翻译器用,不错在你的个东谈主筹谋机上离线转录和翻译音频做事。
图片
该名堂是基于 Whisper 的音频转录和翻译器用,开箱即用、操作浅薄,复旧语音转翰墨、音频翻译、多种话语和离线使用!
图片
Mac 原生版块的 Buzz,具有更简易的外不雅、音频播放、拖放导入、转录文本编著、搜索等功能。它同期适用于Windows 和 Linux 平台。
图片
功能复旧:
①导入音频和视频文献并将转录文本导出为 TXT、SRT 和 VTT(演示)
②从筹谋机的麦克风转录和翻译为文本
图片
③复旧Whisper、Whisper.cpp、Faster Whisper、Whisper兼容的 Hugging Face 模子,以及 OpenAI Whisper API
④敕令行界面
图片
Buzz v1.2.0下载:
https://pan.quark.cn/s/8c08670cfe56
开源地址:
https://github.com/chidiwilliams/buzz
05
ChatTTS
SOTA 开源 TTS,弘大的对话式文本转语音模子,特意为对话场景想象,复旧中、英双语。生成较短的语音恶果很好,无机械感!
图片
它主要用于 LLM 助手对话任务、对话语音以及视频先容等,复旧中英文羼杂文本合谚语音,音色证据强,能达到真假难辨进程。
图片
它不仅大致生成当然、运动的语音,还能禁止和添加笑声、停顿和口吻词等。
ChatTTS源代码:
https://pan.quark.cn/s/48101f70fc83
开源地址:
https://github.com/2noise/ChatTTS
06
fish-speech
统共东谈主齐能用的开源语音合成模子
该名堂是由 Fish Audio 开采的基于 VQGAN+Llama 的文本转语音模子,它仅需 4GB 显存即可在个东谈主成就上浮松开动和微调(16GB),复旧中英日语和音色彩整,语音合成恶果出色。
图片
fish-speech源代码:
https://pan.quark.cn/s/cf829869e7f0
开源地址:
https://github.com/fishaudio/fish-speech
07
GPT-SoVITS
少样本语音调度和合成器用
弘大的少样本语音调度和语音合成 WebUI 器用,输入 5 秒的声息样本就能体验文本到语音调度。复旧少样本 TTS、英语、日语和汉文,集成了声息伴奏折柳、汉文自动语音识别和文本标注等功能。
图片
性格功能:
零点TTS:输入5秒的东谈主声样本并体验即时文本到语音调度。
少发TTS:只需1分钟的历练数据即可微调模子,以提升语音相似度和真确感。
图片
跨话语复旧:使用与历练数据集不同的话语进行推理,面前复旧英语、日语、韩语、粤语和汉文。
WebUI 器用:集成器用包括语音伴奏折柳、自动历练集分割、汉文 ASR 和文本标注,匡助入门者创建历练数据集和 GPT/SoVITS 模子。
图片
开源地址:
https://github.com/RVC-Boss/GPT-SoVITS
kua链:
https://pan.quark.cn/s/cf509d794f54
du链:
https://pan.baidu.com/s/1AQwPg3B60RlozShq97h4_g?pwd=gecp
索要码: gecp
Ok,本期的共享就到这里了,但愿以上语音转翰墨、翰墨转语音的器用不错匡助你,无论是在生计上,依然在责任中,提升效力!
❶5款鲜有东谈主知的裁剪黑科技app
❷5款号称神器的黑科技软件
❸横暴推选4款Windows器用神器
本站仅提供存储做事,统共施行均由用户发布,如发现存害或侵权施行,请点击举报。