LINEなどで自由にチャットが可能な、マイクロソフトの女子高生AIのりんなに歌を歌わせるプロジェクトが現在進行形で動き続けています。
2016年あたりから一般に聞ける状態で歌声が公開されていますが、つい先日その学習の成果がオリジナル曲の「りんなだよ」で発表されました。
この曲、最初はYouTubeの動画での公開でしたが、このほどなんとmoraからハイレゾ音源フォーマットで公開されることになりました。今回はちょっとネタっぽいですが、このニュースにまつわる話題をまとめてみます。
無料
りんなの歌う曲はmoraを経由して高音質データが公開されていますが、価格はゼロ円。無料です。ハイレゾ音源をきちんと再生できる環境があれば、高音質でりんなの歌声を確認することができます。
フォーマットはFLAC形式でサンプリングレートは24bit/96kHzになっています。
聞いてみたい方はこちらのページからダウンロードしてみてください。最近のスマートフォンの上位機種ならば本体だけでハイレゾ音源をハイレゾ音源として再生可能でしょう。
http://mora.jp/package/43100000/MOFA-H-0030-01/
びっくりするぐらい上手い
そして肝心の歌声の方はと言うと、これがびっくりするほど自然で上手です。実際にある楽曲をきちんと学習させたら、多分カラオケの採点機能で95点とか出せるかも?それぐらいの歌唱力があると思います。
こういった音声合成による楽曲を作る方法としては初音ミクなどで有名になったボーカロイドのシステムがありますが、歌声の自然さでいけば現時点のりんなの方がずっと上に聞えます。
「りんなだよ」の曲ならば冒頭のわずかな部分で少し不自然な「ロボ声」っぽい部分が残りますが、後半に行くに従ってそういったパートはほとんど目立たなくなり、ハイトーンの部分などは本当に人間が歌っているんじゃないか、と勘違いするほどの歌声になっています。
「耳コピ」
りんなが歌を歌うときには実は譜面は読んでいません。データとして楽譜を人間が入力していません。この部分は楽譜に沿ったデータを打ち込んでいくボーカロイド系のシステムとは考え方が大きく違うところです。
声を発するためのモデリングを行なって音声合成を行なう、という基本線は多くの音声合成システムと同様ですが、りんなが歌を覚えるときには人間で言うところの「耳コピ」に近い処理を行なっているようです。
歌わせたい曲のデータをりんなが歌うためのシステムに「聴かせ」それに近づくよう学習を繰り返すことで歌がうまくなる仕組み、つまり「ディープラーニング」と呼ばれるAIの学習で使われる手法を使ってモデルにした歌に近づくよう処理を行ないます。
声色のモデルはあり
今のりんなの声のトーンのモデルになったデータ、というか人の声はあるようです。それを元にしていろいろな音声の合成が行なわれています。
歌唱に関する学習の経験値がたまってきているはずですので、今は歌って欲しい楽曲を歌った音声データがあれば、りんなはその曲を「耳コピ」して歌えるようになるとのこと。
ただ、新しい曲をきちんと聴けるレベルまで学習進めるのにはまだそれなりの時間がいるようです。
こんなハイレゾお試しも
ちょっとどこか色物っぽいネタ的お話ではありましたが、こんな切り口からハイレゾに触れてみるのも面白いかもしれません。
実際録音とかもかなりしっかりした音源でしたので、きちんとしたシステムで聴けば「ハイレゾらしさ」も味わえますし。
何より一度聞くと音声合成とは思えない歌声にかなり驚けると思いますよ。
コメントを残す