歌うボイスロイド動画を作る流れ

皆様お久しぶりです、KIKUOです。

最近自分は「歌うボイスロイド」というジャンルの動画制作にハマっています。

「歌うボイスロイド」とは「VOICEROID」というAHS社が出している文章読み上げソフトでボカロのように無理やり歌を歌わせてしまおうという試みです。

歌うボイスロイドはこんな感じの動画です。

youtu.be

アニメ調なのが苦手な人もいるもしれませんが、自分の好きな曲を人工音声に歌わせられるのはかなり面白い試みなんじゃないでしょうか。自分が歌えたら一番気持ち良いんだとは思いますが、残念ながらそんなことはできません。

本当はボーカロイドの方に興味があったのですが、値段が高かったので(2.7~5万円)歌も文章もできるVOICEROID(7000~15000円)から入ってみることにしました。

今回は自分が何本か動画を作ってみて、わかってきた作業工程について書いていきます。制作過程の音声も聞けるようにしましたので興味のある方はぜひ読んでいってもらえればと思います。

歌うボイスロイド動画自体に興味が無い人でも、DTMや動画編集の参考になれば幸いです

必要な工程

歌うボイスロイド動画の制作は「音源制作パート」と「動画編集パート」に分かれます。更に「音源制作パート」は「ボーカル音源」と「インスト(楽器)音源」の2種類に分かれます。

今回の記事では「音源制作パート」の中でもボーカル音源を作る流れを説明します。

ボーカル音源を作る流れ

ボーカル音源制作こそ、歌うボイスロイドの最も奥が深い部分だと思います。それは歌うボイスロイド独自の調声作業があるからです。この深い部分については自分もまだはっきりとわかっていないので今回は割愛します。

ボーカル音源を作る流れは以下の通りです。

①音程データを打ち込む

②音程データに歌詞と発音記号を入力する

③完成したデータをボイスロイドの歌声に変換する。

④調声をする。

まずはボーカル音源を作るのに必要不可欠なソフトウェアの名前をざっと紹介しますので軽く目に入れておいて下さい。

Synthesizer V（シンセサイザーブイ） kotonoSync（コトノシンク）

kotonotone（コトノトーン） Vocalshifter （ボーカルシフター）

①音程データを打ち込む。

音程の情報が入ったデータをMIDIデータといいます。

音程の入力にはMIDIデータを出力できるソフトを使います。

楽譜を用意もしくは耳コピをし、DAWや楽譜作成ソフトで打ち込みを行い、MIDIデータを作成します。

(DAW：パソコンで音楽を作ったり編集をするソフトの事。 Desktop Audio workstationの略。)

おすすめソフト

楽譜作成フリーソフト「musescore3」(ミューズスコア)

ダウンロード | MuseScore

無料で使いやすいDAW「studio one 5 prime」

presonus社のアカウントを作れば0円でダウンロードできます。

PreSonus | Studio One Prime - 驚きのフリーDAWソフトウェア - powered by MI7

もしくは後述する歌声合成ソフトに直接音程を打ち込むこともできます。

筆者はmusescore3で楽譜を作ってから歌声合成ソフトにMIDIデータを入れています。

②音程データに歌詞と発音記号を入力する

人工音声に歌を歌わせるためには歌詞と発音記号の入力が必要になるのですが、この作業は「歌声合成ソフト」で行います。

ボカロ本家のVocaroid Editer(3~5万)を持っている人はそれでできますが、持っていなくても無料で使える便利なソフトがあります。

それがSynthesizer V (シンセサイザーブイ)です。

口で説明するのが難しいのでとりあえずこちらの動画をご覧ください。

スピッツ「小さな生き物」をSynthesizer Vで打ち込みしてみた。(ブログ貼り付け用) pic.twitter.com/uaBlu6mjVn
— KIKUO (@KT73963899) 2020年9月14日

こんな感じで緑色の音程のラインに対応する歌詞を入力することができます。その際、発音記号も自動で入力されます。(この動画では見にくいですが、緑のラインの上に発音記号も入力されてます。)

そうするとあら不思議。人工音声が音程通りに歌詞を歌ってくれます。これが無料って技術の進歩はやばいですね。

他にもニコニコ動画で昔から使われている「UTAU」というソフトもあります。こっちのソフトの解説は昔からされておりネット上に豊富に転がっているのでぜひ調べてみて下さい。

Synthesizer Vは新しいソフトで、しかも開発元が日本ではなく中国なので解説がこのwikiくらいしか出てこないのが弱点です。ただUIがとても綺麗なことや、無料で使える音声のクオリティが高い、追加音声も買えるなどの長所があると思います。

基本操作 | Synthesizer V 日本語非公式 Wiki | Fandom

これだけでもボーカロイドのような歌唱データを作ることができます。

入力が終わったらファイルを保存(デフォルトのsvp形式でOK)し、次の工程に進みます。これで十分！という方はWAVEファイルで出力すれば聞ける・動画で使える音声データになります。出力の仕方はwikiに書いてあるのでそちらをお読み下さい。

Synthesizer Vの出力ファイル(.svp)はそのまま次の工程に進めますが、UTAUの出力ファイルは次の工程に進む前に「VSQX」という形式のファイルに変換する必要があります。それには「konvMaki」というソフトを使います。konvMakiはUTAUのプラグインにもなっているので入手しましょう。ちなみにさっきから出てきているこの「VSQX」とは本家ボーカロイドで使われているファイル形式です。

③完成したデータをボイスロイドの歌声に変換する。

②で作った歌唱データをボイスロイドに歌わせるためには、この工程が必要になります。この工程を行うにはAHS社が販売している「VOICEROID」というソフトが必要になります。キャラクター別で7000~15000円で買えます。

製品を探す｜製品情報｜AHS(AH-Software)

※ちなみにAHS社からはSynthesizer Vの追加音源も出ています。

歌唱データをボイスロイドに歌わせるには「kotonoSync」というソフトを使います。

作業画面はこんな感じです。

f:id:kiei0208:20200914120058p:plain

kotonoSyncに先程のデータを読み込むと、自動的にボイスロイドの声に変換してくれます。

kotonoSyncで音声を付けたデータがこちらになります。曲は先程の動画と同じでスピッツの「小さな生き物」です。 ※ノイズがあるので音量に注意してお聞き下さい。

声質がグッと人間らしくなったと思いませんか。VOICEROIDは本来は文章読み上げ用の音声なのでボーカロイドとはまた違う声の雰囲気になります。しかし、歌唱用ではなく文章読み上げ用であるので無理に歌わせるとノイズが乗ってしまいます。

また、「ほしのすみっこおおおおおおおお...」のようにロングトーンもおかしな感じになってしまいます。これらのノイズやおかしな部分は次の工程でできる限り修正します。

読み込みに対応しているファイルはボーカロイド用の「VSQX」とSynthesizer V用の「SVP」形式です。それ以外の形式のファイルは変換ソフトを使ってVSQXに直しましょう。

④調声

このままでも良いのですが、より気持の良い歌声にするために波形編集ソフトで手を加えます。

代表的なソフトがふたつあります。それは「kotonotone」(コトノトーン)と「vocalshifter」(ボーカルシフター)です。

「kotonotone」はボイスロイド特有のロングトーンを補正するソフトです。先程の「ほしのすみっこおおおおおお...」もkotonotoneを使えばいくらかマシになります。また倍音に乗っているノイズを消すこともできます。

作業画面はこんな感じです。

f:id:kiei0208:20200914123153p:plain

波形を範囲選択し、処理をかけることでノイズやおかしなロングトーンが軽減されます。ただ曲中すべてのおかしな部分に手動で選択し、処理をかけていくという単調な作業の繰り返しなのでちょっと大変です。

「vocalshifter」は歌声を修正できるソフトです。波形に手を加えることでピッチ(音程)や音量の細かな修正・加工や声色やタイミングなども編集できます。カラオケで聞きなじみのあるしゃくりやビブラート、フォールなどを加えることもできます。

作業画面です。

f:id:kiei0208:20200914123431p:plain

正直、このソフトは奥が深すぎて訳が分かりません。調声のテクニックを自分で発見し、適用できるようになっていかなければいけないので、今まで上げた中で使いこなすのが最も難しいソフトではないかと思います。特に正解もありません。ほとんど感覚です。ただ、そこが面白いところだと思います。耳で違和感を感じた部分を試行錯誤しながら修正していきます。

先程の「小さな生き物」にkotonotoneとvocalshifterで補正を掛けたものがこちらです。まだ編集中のデータなのでそこまで綺麗ではないですが、変化は感じられると思います。

序盤の「だー↑きしめて」のしゃくりや「ほしのすみっこ～～～～～」のビブラートなどは変化が分かりやすい部分かと思います。

調声については自分もまだ試行錯誤している段階なのでテクニックについて語れることは特にないです。なのでテクニックではなく学習の仕方について、人間の歌唱を真似する方法について書きます。

実際にアーティストが歌っているボーカルのみの音源を用意し、vocalshifterで波形を観察しましょう。その特徴をボイスロイド音源で再現してみるのがいいんじゃないかと思います。複数の音源の波形を透かせる機能で真似しながら再現するとやりやすいです。

そのためのボーカル音源を用意するには楽曲データからインストの音だけを削除する必要があります。その方法はふたつあります。まず手軽な方法としては、ボーカルキャンセラーなどのインスト削除ソフトを使うことです。インストを削除してくれるwebサイトもあります。たしか有料でしたが... このやり方はクオリティがあまり高くないです。たいていの場合インストを消し切れません。vocalshifterでボーカルのピッチが読めればOKです。

次により綺麗に取り出す方法の紹介です。シングルのCDにたまに入っているInstrumental音源を用意し、DAWなどで逆位相にして元の楽曲と合成しましょう。こうすると綺麗にボーカルだけ取り出せます。不思議ですね~。このやり方は本当に綺麗に取り出すことが出来て最強なのですが、Instrumental音源がある曲でしかできません。残念。

終わりに

いかがだったでしょうか。初めて1週間くらいの若輩者ですが歌うボーカロイド動画を作る皆さんやはじめてみたい方の助けになれば幸いです。次回はインスト音源編でまたお会いしましょう。バンドスコアを買ってDAWで打ち込むやり方、公開されている音源を探すやり方、自分で演奏するやり方...などについて書く予定です。

KIKUOの投稿動画まとめです。リンクを押すと一覧画面に飛びます。

www.upload.nicovideo.jp

あとブログ内の広告を押していただけると筆者がとても喜びます（笑）