この前動画制作のリハビリと練習の為にずんだもんBBを作ってみた。
その中で気付いたんだけど、ずんだもんって歌わせるの割と面倒。
簡単な方法もあるんだけど、ずんだもんっぽさを残しながら歌わせるとなると割としんどい。
※追記 NEUTRINO版のずんだもんが8月1日に実装されたね。多分この記事より簡単で上手く発声出来ると思うので今から歌わせたい人はNEUTRINO版をお勧めする。NEUTRINO版の解説は気が向いたら更新するかもしれない。
ここからの記事はNEUTRINOを使う人からしたら全く意味ない記事だから閉じるか慈悲で見るか選択してくれ。
↓NEUTRINO公式サイト
https://studio-neutrino.com/
※2023/08/02 再追記 AIが発達しまくって「diff-svc」やら「rvc」やら歌わせる方法が色々出てきた昨今。もう人力で歌わせる時代は終わったんだなって思った。
「RVC」を使うとリアルタイムで自分がずんだもんになれるので気になった人は「RVC-webUI」とかで調べれば幸せになれるかもしれない。あの技術は正直凄い。
音MADに精通している人や普段からDTM使ってる人とかなら大したことない話だとは思うけど、私みたいに一般の投稿者となると別で、ずんだもんを歌わせたいけど何やればいいの?ってなるはず。
そんな同胞のために今回はずんだもんを歌わせる方法を2種類解説していきたい。
UTAUを使って歌わせる
これが一番楽。公式から出ているUTAU音源を使ってUTAUという音声合成ソフトで歌わせる。
公式から提案されている物なので比較的簡単に歌わせることが出来なおかつ全部無料ソフト、だけどVOICEVOXのずんだもんっぽさがあまり残らないのが欠点。
デメリット:VOICEVOXのずんだもんっぽさがあまり残らない。
取り敢えずずんだもんを歌わせてみたいって人におすすめな方法。因みに私はUTAUじゃなくてもう一つの方法で歌わせた。
UTAU本体とUTAU音源をダウンロード&インストール
流石にUTAU全部を語ると長すぎるので導入のみ話す。導入後は他のUTAU記事とやることは同じなのでカット。
ここからUTAU本体をDLする。
ZIPファイルを解凍するとinstallerが入っているのでインストール
次にずんだもんのUTAU音源をDLする。
UTAUを開いて上記でDLしたUTAU音源をUTAUにドラック&ドロップしてUTAU音源を読み込み。
あとは通常のUTAUと同じ使い方の為この辺の記事を参考に歌わせてみてください。


VOICEVOX&Melodyneで歌わせる
面倒だけど技術があればどこまでもずんだもんっぽさが出るのがこの2つを使った歌わせ方。
Melodyneってなんぞやって人もいると思うので一応軽く話すと
こいつは歌ってみたのMIXなどで使うピッチ補正のプラグインソフトになる。
ボーカルのピッチやリズムを補正してきれいにしてくれる音楽制作をする人からしたら結構有名なソフト。まぁ私は今回の動画作るまでは使ったことなかったけど()
これを利用して、VOICEVOXで書きだした歌とは到底思えない音源をMelodyneでピッチ補正をして無理やり歌わせるって感じ。
しかし少しネックなのがこのMelodyne無料プラグインでなく有料プラグインな所。
なので今回はMelodyneの30日間お試し版を使用。
一番安いグレードであるMelodyne 5 essentialでも9,900円(税込)と趣味で使うにはかなりお高め、いや性能を見れば買い切りの分だけましかもしれない。
どっかのAdobeさんは月額5000円。いやあっちもフルセットであの値段だから安いのか…?
- Melodyne 5 essential =¥9,900(税込)
- Melodyne 5 ASSISTANT =¥28,600(税込)
- Melodyne 5 EDITOR = ¥47,310(税込)
- Melodyne 5 STUDIO = ¥78,350(税込)
VOICEVOXで音声を書き出す
まずは普通にボイスボックスをダウンロードして音声として書き出せるように準備。
VOICEVOXをここからDL
短音で書き出すか、1文ずつ書き出すか、3つぐらいにまとめて書き出すかで結構音の繋がりが違うので好みの書き出し方法で書き出してほしい。
「ファイル」→「一つだけ書き出し」

私のおすすめは長文で書き出す方法。音と音の間の違和感が特に何もしなくてもあんまりなくなる。
多分技量で何とかなる部分なんだろうけど私にはDTM知識ゼロなのでこの方法が一番聞きやすい音になった。もっといい方法もあると思うけどわからん。
- 短音書き出し=機械音、ぶつ切り感が目立つ、書き出しが面倒
- 1文ずつ書き出し=つなぎ部分のぶつ切りが目立つ、書き出しがしやすい
- 長文で書き出し=違和感が一番少ない、書き出しが面倒
Melodyneでピッチ合わせ
MERODYNEはプラグインソフトの為、元となるDTMソフトが必要になる。
今回はwindowsのフリーDTMソフトの中でも最強と言われるCakewalkを使用。
勿論下記のような有料DAWでもおk
Cakewalk(DTMソフト)&Melodyne導入

↑公式サイトからダウンロード。
公式サイトではDTMソフトのみをダウンロードするか、アシスタント含めたソフトをダウンロードするかを選べる。
アシスタントの方はDTMに役立つプリセットとかを導入できるのでDTMをやりたい人は右側のアシスタント含めたソフトをダウンロードをすることをお勧めする。
今回は右側(上記画像のグレーのボタン)を想定して説明してくんだけど、もしかしたら左側のボタンからDLすると少し流れが違うかも。
上記画像の右側のボタンを押すとアシスタントのセットアップアプリがダウンロードされる。
これを起動するとBandLab Assistantというアプリが立ち上がり、ログインを求められる。
サインアップを押して、「メアド、パスワード」を入力してBandLabのアカウントを作成。
サインインして「Apps」タブを押して、cakewalkの下にある「install」を押す。(下記画像はダウンロード済みの為openになってるけどホントはinstallって出る)
インストールが始まると追加機能をインストールするかどうか求められるんだけど、DTMをマジでやりたい人は全部選択、ずんだもんを歌わせたいだけの人はMERODYNEをインストール。
ダウンロードが終わると、言語設定→インストール場所選択→インストールという流れなので自分に合った設定をしてほしい。
追加機能のインストールも同様に始まるので軽く見ながら次へを連打。
インストールが無事完了するとこんなアイコンが生まれるので起動。
起動すると初期設定で音声の出力先と入力先を求められると思うので自分が使ってるデバイスに合わせて設定。
これでCakewalkの設定は終了。
もし画面が違うとか工程が分からない方は下記ブログ様を参考にしてみたらいい。私の説明よりわかりやすいから。

トラックを作成
オーディオトラックを作成。
左真ん中のトラック名が記載されている所の下にある黒い空間で右クリックすると「オーディオトラックの挿入」がありますのでそれを選択して作成する。
下記画像は余計な物が移ってるけど関係ないので無視してくれ。
VOICEVOXで書き出した音をCakewalkに読み込み
VOICEVOXで書き出した音をCakewalkに読み込みする。
今回は例として動画で使った音源を使用。
ドラック&ドロップで音声を読み込む。
Cakewalkに音程合わせる用のボーカル音源を読み込みor作成
ボーカルと同じ音程にするのでアカペラ音源が必要。(もしかしたらアカペラじゃなくてもいいかもしれないけど試してないので不明。)
私の場合は合わせる音源が無かったからCakewalkでmidiを打ち込みした。
・MIDI打ち込み方
1.インストゥルメントの挿入を選択
2.そのまま「作成」を押す
3.トラック横の空白部分をダブルクリックすると鍵盤がでるので気合で打ち込む
で作成したmidiがこんな感じ
そして打ち込んだmidiをオーディオファイルに変換。Melodyneはオーディオファイルじゃないと読み込みできない仕様なのでこのひと手間を加える。
打ち込んだMIDIを選択して「トラック」→「トラックにバウンス」でオーディオファイルに出来る。下記画像だと一段目が打ち込んだMIDIで二段目がオーディオファイル。
これで作成したボーカルの音源とずんだもんの音源を並べますそれ以外はいらない。
ボーカル音源をMelodyneで表示
ボーカル音源を選択したら、「Region FX」→「Melodyne」→「Ragion FXの作成」を選択。
出力完了するとボーカルの音程が表示される。
ボーカル音源は音程を表示したいだけなので弄らない様グレーにするほうがいい
ずんだもん音源をMelodyneで表示
先ほどと同じやり方でずんだもんの音源をMelodyneで表示
melodyne上の赤い部分がずんだもんの現在の音程と喋りの長さになる。
因みに上記のボーカル音源がこの音で
ずんだもんの音源がこれ
長さも音程も全く違うけど、どうにかなっちゃうのがMelodyneの凄い所。
ずんだもん音源をMelodyneで調整
ボーカル音源に合わせて音程と長さを変えていく。
Melodyneは割と感覚で使えるソフトだと思うけど、さっぱりわからん方は下記事様を参考にすればめっちゃわかりやすい。(私はここで覚えた)

でMelodyneでずんだもんの音源を調整して完成したのがこちら
音をつなげた方が滑らかにはなるけどねっとりになったり、結構苦労したね。
後はボーカル音源を消してinstを入れれば完成。
完成したずんだもんの音源と元のずんだもんの比較
こちらがVOICEVOXの音源をそのまま書き出した時のずんだもん
こちらがMelodyneで加工したずんだもん
そして最後にこちらがMelodyneで加工+instの完成音源。
まぁ結構聞けるぐらいにはなったのかなーと。
素人でもこのくらいで来たので意欲のある人やDTM勢の人ならもっとできる。歌わせたい人は頑張って。私は多分もうやらん。
コメント