Singing demos for InterSpeech 2022 paper 《WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses》


Paper

WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses [arxiv]

Authors

Zewang Zhang, Yibin Zheng, Xinhui Li, Li Lu

Abstract

In this paper, we develop a new multi-singer Chinese neural singing voice synthesis (SVS) system named WeSinger. To improve the accuracy and naturalness of synthesized singing voice, we design several specifical modules and techniques: 1) A deep bi-directional LSTM based duration model with multi-scale rhythm loss and post-processing step; 2) A Transformer-alike acoustic model with progressive pitch-weighted decoder loss; 3) a 24 kHz pitch-aware LPCNet neural vocoder to produce high-quality singing waveforms; 4) A novel data augmentation method with multi-singer pre-training for stronger robustness and naturalness. To our knowledge, WeSinger is the first SVS system to adopt 24 kHz LPCNet and multi-singer pre-training simultaneously. Both quantitative and qualitative evaluation results demonstrate the effectiveness of WeSinger in terms of accuracy and naturalness, and WeSinger achieves state-of-the-art performance on the recently public Chinese singing corpus Opencpop\footnote{https://wenet.org.cn/opencpop/}. Some synthesized singing samples are available online\footnote{https://zzw922cn.github.io/wesinger/}.


1. Selected test samples from WeSinger on the internal professional female singer's corpus

lyrics Recording
后来 我总算学会了如何去爱
可惜你早已远去 消失在人海
后来 终于在眼泪中明白
有些人 一旦错过就不在

Singing voices synthesized with ground-truth durations.

lyrics WeSinger VS-augmented WeSinger WeSinger with multi-singer pre-training WeSinger with VS-augmented multi-singer pre-training
后来 我总算学会了如何去爱
可惜你早已远去 消失在人海
后来 终于在眼泪中明白
有些人 一旦错过就不在

Singing voices synthesized with predicted durations.

lyrics WeSinger VS-augmented WeSinger WeSinger with multi-singer pre-training WeSinger with VS-augmented multi-singer pre-training
后来 我总算学会了如何去爱
可惜你早已远去 消失在人海
后来 终于在眼泪中明白
有些人 一旦错过就不在

Singing voices synthesized with predicted durations with post-processing.

lyrics WeSinger VS-augmented WeSinger WeSinger with multi-singer pre-training WeSinger with VS-augmented multi-singer pre-training
后来 我总算学会了如何去爱
可惜你早已远去 消失在人海
后来 终于在眼泪中明白
有些人 一旦错过就不在

《年轮》

lyrics WeSinger with VS-augmented multi-singer pre-training
圆圈勾勒成指纹 印在我的嘴唇 回忆苦涩的吻痕 是树根
春去秋来的茂盛 却遮住了黄昏 寒夜剩我一个人 等清晨
世间最毒的仇恨 是有缘却无分 可惜你从未心疼 我的笨
荒草丛生的青春 倒也过的安稳 代替你陪着我的 是年轮
数着一圈圈年轮 我认真 将心事都封存 密密麻麻是我的自尊
修改一次次离分 我承认 曾幻想过永恒 可惜从没人陪我演这剧本
可惜从没人陪我演这 剧 本

《红色高跟鞋》

lyrics WeSinger with VS-augmented multi-singer pre-training
只凭直觉
你像窝在被子里的舒服
却又像风 捉摸不住
像手腕上散发的香水味
像爱不释手的 红色高跟鞋

2. Selected samples from CpopSinger and WeSinger on the public Opencpop training set

lyrics CpopSinger WeSinger
雨淋湿了天空 灰的更讲究 你说你不懂为何在这时牵手
能不能给我一首歌的时间 把故事听到最后才说再见
经常会想 长大多好 有些事情却只能想象
想说就说 想做就做 为了明天的自己鼓掌
男子汉 没有什么输不起 正太修炼成功的秘籍
幸福也可以 很安静 我付出一直 很小心

3. Selected test samples from WeSinger on the public Opencpop corpus

《给我一首歌的时间》

lyrics WeSinger with VS-augmented multi-singer pre-training
能不能给我一首歌的时间 紧紧的把那拥抱变成永远
在我的怀里你不用害怕失眠 如果你想忘记我也能失忆
能不能给我一首歌的时间 喔把故事听到最后再说再见
你送我的眼泪 让它留在雨天 喔越过你划的线我定了勇气
的终点

《青春修炼手册》

lyrics WeSinger with VS-augmented multi-singer pre-training
这世界 的太阳 因为自信才能把我照亮
这舞台 的中央 有我才闪亮 有我才能发着光
跟着我 左手 右手 一个慢动作 右手 左手慢动作重播
这首歌 给你快乐 你有没有爱上我
跟着我 鼻子眼睛 动一动耳朵
装乖 耍帅 换不停风格
青春有太多 未知的猜测 成长的烦恼算什么
经常会想 长大多好 有些事情却只能想象
想说就说 想做就做 为了明天的自己鼓掌
这世界 的太阳 因为自信才能把我照亮
这舞台 的中央 有我才闪亮 有我才能发着光

4. Selected synthesized songs from WeSinger

《莫斯科没有眼泪》

《失恋阵线联盟》