Synthesized singing voice demos for ICASSP 2023 paper 《WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training》


Paper

WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training
[arxiv link]

Authors

Zewang Zhang, Yibin Zheng, Xinhui Li, Li Lu

Abstract

This paper aims to introduce a robust singing voice synthesis (SVS) system to produce very natural and realistic singing voices efficiently by leveraging the adversarial training strategy. On one hand, we designed simple but generic random area conditional discriminators to help supervise the acoustic model, which can effectively avoid the over-smoothed spectrogram prediction and improve the expressiveness of SVS. On the other hand, we subtly combined the spectrogram with the frame-level linearly-interpolated F0 sequence as the input for the neural vocoder, which is then optimized with the help of multiple adversarial conditional discriminators in the waveform domain and multi-scale distance functions in the frequency domain. The experimental results and ablation studies concluded that, compared with our previous auto-regressive work, our new system can produce high-quality singing voices efficiently by fine-tuning different singing datasets covering from several minutes to a few hours. A large number of synthesized songs with different timbres are available online\footnote{https://zzw922cn.github.io/wesinger2} and we highly recommend readers to listen to them.


Following updated singing demos listed with red fonts(update date: 20221009).

[update 1] Singing demos from different singers' adapted system with different Chinese pop songs

To show the robustness and performance, here we do not use ground-truth duration for length-regulator, we use predicted duration to match BGM instead.
Chinese pop song《失恋阵线联盟》with BGM
Chinese pop song《泡沫》without BGM
Chinese pop song《去年夏天》with BGM
Chinese pop song《七里香》with BGM
Chinese pop song《小手拉大手》with BGM
Chinese pop song《失恋阵线联盟男高音版》with BGM

[update 2] Singing demos from different singers' adapted system with different kinds of user-defined lyrics and musical scores(not shown)

To show the robustness and performance, here we do not use/have ground-truth duration for length-regulator, we just use predicted duration instead.
user-modifed lyrics 欢迎大家来听我的歌唱合成分享
欢迎大家来听我的歌唱合成分享
欢迎大家来听我的歌唱合成分享
欢迎大家来听我的歌唱合成分享
欢迎大家来听我的歌唱合成分享
这个唱得怎么样
Synthesized singing audios
user-modifed lyrics 零三年的离别 在高考后的校园 一个个少年 在操场 肆意妄为
从此没人关心 谁又 考了第一 因为失落不许人 回忆
学习上若在意成绩 痛苦就多一个来源 人生起起伏伏
不必太过焦虑 若不潇洒就是罪 二零八没有散席友谊常存
联系的更紧密 毕业的我 原本以为 可能一辈子不相见
二零八没有散席 同学相聚 不住笑的聊天
让距离变的不再遥远 记住相互的美
Synthesized singing audios
user-modifed lyrics 找个好日子愿美好满载而归 老了有你陪每天幸福来点缀
是谁的祝贺好运气年年岁岁 哦生活也不想白头与我去相偎
日吉祥夜如意祝愿你平安顺遂 快到那时候将所谓都一起面对
乐开怀地笑谈为崭新的岁月干杯
Synthesized singing audios

Following singing voices are all predicted on the test set from SVS systems with Chinese lyrics and musical scores as input.

Selected ground-truth (GT) recordings of three singers for experiments

Singer Name Data-L Data-S Opencpop
Lyrics 后来 我总算学会了如何去爱
可惜你 早已远去 消失在人海
没有你的冬天 我会一直唱着
唱着 直到你出现
一双围在我胸口的臂弯 足够
抵挡天旋地转
GT Recordings

1. Selected predicted samples with ground-truth duration from WeSinger and WeSinger 2

Singer Name Data-L Data-S Opencpop
Lyrics 《后来》片段

栀子花 白花瓣 落在我蓝色百褶裙上
爱你你轻声说 我低下头闻见一阵芬芳
那个永恒的夜晚 十七岁仲夏 你吻我的那个夜晚
让我往后的时光 每当有感叹 总想起当天的星光
那时候的爱情 为什么就能那样简单 而又是为什么
《后来》片段

总想起当天的星光 那时候的爱情
为什么就能那样简单 而又是为什么
人年少时 一定要让深爱的人受伤
在这相似的深夜里 你是否一样
也在静静追悔感伤 如果当时我们能不那么倔强
现在也不那么遗憾 你都如何回忆我
《给我一首歌的时间》片段

能不能给我一首歌的时间 紧紧的把那拥抱变成永远
在我的怀里你不用害怕失眠 如果你想忘记我也能失忆
能不能给我一首歌的时间 把故事听到最后才说再见
你送我的眼泪让它留在雨天 越过你划的线我定了勇气的终点
WeSinger
WeSinger 2

2. Selected predicted samples with ground-truth duration from WeSinger 2

Lyrics 《传奇》片段

只是因为在人群中多看了你一眼
再也没能忘掉你容颜
梦想着偶然能有一天再相见
从此我开始孤单思念
《匆匆那年》片段

匆匆那年我们 究竟说了几遍 再见之后再拖延
可惜谁有没有 爱过不是一场 七情上面的雄辩
匆匆那年我们 一时匆忙撂下 难以承受的诺言
只有等别人兑现 不怪那吻痕还 没积累成茧
拥抱着冬眠也没能 羽化再成仙
不怪这一段情 没空反复再排练
是岁月宽容恩赐 反悔的时间
《画心》片段

啦啦啦啦啦啦啦啦啦 啦啦啦啦啦啦啦啦啦
啦啦啦啦啦啦 啦啦啦啦啦啦啦
啦啦啦啦啦啦啦啦啦啦
看不穿 是你失落的魂魄 猜不透 是你瞳孔的颜色
一阵风 一场梦 爱如生命般莫测
你的心到底被什么蛊惑
《空山新雨后》片段

山风轻摆尾 卷下落花随流水
路过 擦拭曾经 用你柔情 换我的眼泪
当爱恨都败退 没谢幕的人啊
井中月 举杯砸碎 佐一场宿醉
抽签的玫瑰 作熏香还能余味
猜测无解答案 算了满地 也是种浪费
我才终于明白 终于明白 不能被施舍的是爱
《芒种》片段

一想到你我就 呼 空恨别梦久 呜
烧去纸灰埋烟柳 于鲜活的枝丫
凋零下的无暇 是收获谜底的代价
余晖沾上 远行人的发 他洒下手中牵挂于桥下
《默》片段

我被爱判处终身孤寂 不还手 不放手
笔下画不完的圆 心间填不满的缘 是你
为何爱判处众生孤寂 挣不脱 逃不过
眉头解不开的结 命中解不开的劫 是你
Data-L
Lyrics 《漠河舞厅》片段

如果有时间 你会来看一看我吧
看大雪如何衰老的 我的眼睛如何融化
如果你看见我的话 请转过身去再惊讶
我怕我的眼泪 我的白发像羞耻的笑话
我从没有见过极光出现的村落
也没有见过有人 在深夜放烟火
晚星就像你的眼睛杀人又放火
你什么都不必说 野风惊扰我
《最初的梦想》片段

如果骄傲没被现实大海冷冷拍下
又怎会懂得要多努力才走得到远方
如果梦想不曾坠落悬埃千钧一发
又怎会晓得执着的人 拥有隐形翅膀
把眼泪种在心上 会开出勇敢的花
可以在疲惫的时光 闭上眼睛闻到一种芬芳
就像好好睡了一夜直到天亮
又能边走着边哼着歌 用轻快的步伐
《小半》片段

灯火阑珊 我的心借了你的光是明是暗
笑自己情绪太泛滥形只影单
自嘲成习惯 多敏感又难缠
低头呢喃 嗯对你的偏爱太过于明目张胆
在原地打转的小丑伤心不断
空空留遗憾 多难堪又为难
释然 慵懒 尽欢
时间风干后你与我再无关
没答案 怎么办 看不惯我自我欺瞒
《相见恨晚》片段

看着天空不让泪流下 不说一句埋怨
只是心中的感慨万千 当作前世来生相欠
你说 是我们相见恨晚 我说 为爱你不够勇敢
我不奢求永远 永远太遥远 却陷在爱的深渊
你说 是我们相见恨晚 我说 为爱你不够勇敢
在爱与不爱间 来回千万遍
哪怕已伤痕累累 我也不管~~
你说 是我们相见恨晚 我说 为爱你不够勇敢
我不奢求永远 永远太遥远 却陷在爱的深渊
你说 是我们相见恨晚 我说 为爱你不够勇敢
在爱与不爱间 来回千万遍 哪怕已伤痕累累
我也不管 哈~~
Opencpop

3. Selected predicted samples with predicted duration from WeSinger 2

To show the robustness and performance, here we do not use ground-truth duration for length-regulator, we use predicted duration instead.
Lyrics 《我的歌声里》片段

没有一点点防备 也没有一丝顾虑
你就这样出现在我的世界里
带给我惊喜 情不自已 可是你偏又这样
在我不知不觉中 悄悄的消失
从我的世界里 没有音讯 剩下的只是回忆
你存在 我深深的脑海里
我的梦里 我的心里 我的歌声里
你存在 我深深的脑海里
我的梦里 我的心里 我的歌声里
《小半》片段

不敢回看 左顾右盼不自然的暗自喜欢
偷偷搭讪总没完地坐立难安 试探说晚安 多空泛又心酸
低头呢喃 对你的偏爱太过于明目张胆 在原地打转的小丑伤心不断
空空留遗憾 多难堪又为难 释然 慵懒 尽欢
时间风干后你与我再无关 没答案 怎么办 看不惯自我欺瞒
纵容着 喜欢的 讨厌的 宠溺的 厌倦的 一个个慢慢黯淡
纵容着 任性的 随意的 放肆的 轻易的 将所有欢脱倾翻
不应该 太心软 不大胆 太死板 不果断 玩弄着肆无忌惮
不应该 舍弃了 死心了 放手了 断念了 无可奈何不耐烦
不算
《遇见》片段

听见 冬天 的离开 我在某年某月醒过来
我想 我等 我期待 未来却不能因此安排
阴天 傍晚 车窗外 未来有一个人在等待
向左 向右 向前看 爱要拐几个弯才来
我遇见谁会有怎样的对白 我等的人他在多远的未来
我听见风来自地铁和人海 我排著队拿著爱的号码牌
《最初的梦想》片段

沮丧时总会明显感到孤独的重量
多渴望懂得的人给些温暖借个肩膀
很高兴一路上 我们的默契那么长 穿过风又绕了弯
心还连着像往常一样 最初的梦想紧握在手上 最想要去的地方
怎么能在半路就返航 最初的梦想绝对会到达 实现了真的渴望
才能够算到过了天堂
《年轮》片段

数着一圈圈年轮 我认真 将心事都封存
密密麻麻是我的自尊
修改一次次离分 我承认 曾幻想过永恒
可惜从没人陪我演这剧本
圆圈勾勒成指纹 印在我的嘴唇 回忆苦涩的吻痕 是树根
春去秋来的茂盛 却遮住了黄昏 寒夜剩我一个人 等清晨
世间最毒的仇恨 是有缘却无分 可惜你从未心疼 我的笨
荒草丛生的青春 倒也过的安稳 代替你陪着我的 是年轮
Data-L

4. Selected predicted samples with predicted duration and BGM from WeSinger 2

To show the robustness and performance, here we do not use ground-truth duration for length-regulator, we use predicted duration to match BGM instead.
Lyrics 《莫斯科没有眼泪》+ BGM
冬天的离别 在莫斯科的深夜 一列列军队 在街上森严戒备 这里没人察觉 谁又爱上了谁 因为苦难不许人崩溃
感情上若习惯防备 寂寞就多一道墙围 爱情隐隐约约 提醒我这一回 再不拥抱就是罪 莫斯科没有眼泪 大雪纷飞
你冷的好憔悴 单身的我 原本以为 可以一辈子不跟谁 莫斯科没有眼泪 我却流泪 不住哭的赞美 让我付出不怕心碎 是你最好的美
莫斯科没有眼泪 我却流泪 不住哭的赞美 让我付出不怕心碎 是你最好的美 爱在最古老的国界 再不求能全身而退
Data-L

5. Only for research use: user-modified lyrics and musical scores with predicted duration from WeSinger 2

To show the robustness and performance, here we do not use ground-truth duration for length-regulator, we use predicted duration to match BGM instead.
Lyrics user-modified case 1

ji shi wan shang shui shuo
zai di qiu ling yi duan
ruo neng gou gei bi ye shen me dou hui zhi de qu zuo
user-modified case 2

ji shi wan shang shui shuo
zai di qiu de ling yi duan
ruo neng gou gei bi ye shen me dou hui xiang qu zuo
user-modified whole song + BGM

Data-L