大家好,我是AI肝铁侠。
做漫画解读,小说推文的同学对AI配音其实非常熟悉,虽然剪辑工具也是不停的在加入训练好的不同配音,但配音中其实缺了灵魂--情绪,而且赛道越来越卷,要想获得好的流量就必须有自己独特之道。
最近肝铁侠就被一个AI配音软件给震惊到了,它能够模拟人的声音,并且做出各种各样的语气,像这样:
01
HOTSPOT
今天的主角?
听完后感觉怎么样是不是感觉到很不错,所以有请我们今天的主角:
Chattts 网址:
https://github.com/kangyiwen/TTSlist
ChatTTS短短三周就在GitHup上获取到了9千颗星,也是同时刷爆了国内和国外网站,让人不经意的,未来人与人的交流,难道是这个样?
ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。
它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。
目前作者已经对底模进行了开源。
02
HOTSPOT
ChatTTS特点
ChatTTS 能够实现自然流畅的语音合成,同时支持多说话人;还能预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等;ChatTTS 在韵律方面超越了大部分开源 TTS 模型。
一、多语言支持
ChatTTS 的一个关键特性是支持多种语言,包括英语和中文。这使其能够为广泛用户群提供服务,并克服语言障碍。
二、大规模数据训练
ChatTTS 使用了大量数据进行训练,大约有1000万小时的中文和英文数据。这样的大规模训练使其声音合成质量高,听起来自然。
三、对话任务兼容性
ChatTTS 很适合处理通常分配给大型语言模型LLMs的对话任务。它可以为对话生成响应,并在集成到各种应用和服务时提供更自然流畅的互动体验。
四、开源计划
项目团队计划开源一个经过训练的基础模型。这将使学术研究人员和社区开发人员能够进一步研究和发展这项技术。
五、控制和安全性
团队致力于提高模型的可控性,添加水印,并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。
六、易用性
ChatTTS 为用户提供了易于使用的体验。它只需要文本信息作为输入,就可以生成相应的语音文件。这样的简单性使其方便有语音合成需求的用户。
03
HOTSPOT
ChatTTS使用
以windows为例:
硬件配置:至少英伟达显卡(4G+显存),16G内存
操作系统:Windows10/11
应用软件:git,miniconda,魔法工具
一、官方提供
我们先来看看ChatTTS官方提供安装和使用方法:
1、Git下载源码
git clone https://github.com/2noise/ChatTTS
2、安装依赖
这里要保证Python的版本要在3.9以上,安装torch
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
安装TTS
pip install torch ChatTTS
3、测试代码
import torch
import ChatTTS import torch
import ChatTTS
#为您的脚本导入必要的库。您将需要torch、ChatTTS和IPython.display中的Audio。
from IPython.display import Audio
# 初始化ChatTTS 创建ChatTTS类的实例并加载预训练模型。
chat = ChatTTS.Chat()
chat.load_models()
# 定义要转换为语音的文本 将<YOUR TEXT HERE>替换为您想要的文本。
texts = ["你好,欢迎使用ChatTTS!"]
# 使用infer方法从文本生成语音。设置use_decoder=True以启用解码器。
wavs = chat.infer(texts, use_decoder=True)
# 播放生成的音频 使用IPython.display中的Audio类播放生成的音频。将采样率设置为24,000 Hz并启用自动播放。
Audio(wavs[0], rate=24_000, autoplay=True)
二、在线测试Demo
目前作者开发了在线的Demo版本,可以提前在线使用开源版本。
网址: https://chattts.com/zh
这里可以直接生成声音,我们来试试效果:
当然作者也说了目前只对4W小时的版本进行开源,大概率不会有太多的语气词,因为会涉及到法律风险。
三、一键部署包
由于官方提供的部署方式比较繁琐,并且有时会伴有失败,所以贴心的Githup网友开发出了两个一键安装包。
1、ChatTTS webUI & API
一个简单的本地网页界面,在网页使用 ChatTTS 将文字合成为语音,支持中英文、数字混杂,并提供API接口。
v0.92完整包下载(2.7G含模型)安装包地址:
百度网盘下载: https://pan.baidu.com/s/1FQphPdgvp80Z1KmE8HpFgA?pwd=xm65
123网盘下载:
https://www.123pan.com/s/03Sxjv-HByB3.html
huggingface link:
https://huggingface.co/spaces/mortimerme/s4/resolve/main/ChatTTS-ui-0.92.7z?download=true
注意:支持将csv或pt音色文件放在 speaker目录下使用
2、ChatTTS_colab
一键部署(含离线整合包)!基于 ChatTTS ,支持音色抽卡、长音频生成和分角色朗读。简单易用,无需复杂安装。
特点:
Colab 一键运行:无需复杂的环境配置,只需点击上方的 Colab 按钮,即可在浏览器中直接运行项目。
音色抽卡功能:批量生成多个音色,并可保存自己喜欢的音色。
支持生成长音频:适合生成较长的语音内容。
字符处理:对数字和朗读错误的标点做了初步处理。
分角色朗读功能 :支持对不同角色的文本进行分角色朗读,并支持大模型一键生产脚本
下载离线整合版: https://pan.baidu.com/s/1-hGiPLs6ORM8sZv0xTdxFA?pwd=h3c5
四、声音资源
最后肝铁侠再为大家推荐两个ChatTTS的音色库:
1、ChatTTS 稳定音色/区分男女
基于 ChatTTS 的 2000 条音色库 稳定性打分🥇 区分男女年龄👧 支持在线试听🎶
https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker
2、TTList
10000 chatTTS voices !chatTTS 音色库,再也不为音色抽卡烦恼啦。
https://github.com/kangyiwen/TTSlist
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。