アクエリよりポカリ: ボイスチェンジャーで遊ぼう

お久しぶりでいきなりですが、自分でまとめておかないと忘れてしまうので、ボイスチェンジで遊ぶ際に調声するフローを書き連ねていきます。

ボイスチェンジで何をするのか・・・
基本的に音の高さとなるピッチと音色となるフォルマントを弄り、男性であれば女性のように女性であれば男性の様に聞こえるようにして遊びます。
自分の場合は男性→女性のアプローチをかける事になるので、その逆で同様にいけるかは保証できません。

まず、恋声を触ってみた後に、返しの声のディレイがきついため、巷で発売されているRoland VT-4というハードウェアを手に取るって方が多い気がしますが、これだけで環境揃うって人はほぼ見たことありません。
あれやこれやつけてやっとということになると思いますので、ボイスチェンジ機材単機運用は基本的に頭から捨て去ってください。

自分でもよくわかってない理論だかをつらつら書き連ねても仕方がないので、あれやこれや触ってこうすればこうなる(感覚)を以下に綴っていきたいと思います。
基本的にソフトでもハードでもマイク入力から流すフローは同じだと思いますので、配線であれやこれや取り回す必要のないソフトボイスチェンジから入っていくのが調声しやすいのではないかと自身考えています。

初めてボイスチェンジ的機材触れる機会の多いものとしてはメガホンが頭に浮かぶと思いますが、口を拡声器に近づけ、それをあの構造から拡散するという形になっています。
ボイスチェンジもこれと割と近いものとして認識しておりまして...

マイク-ボイスチェンジ-出力

ではなくて、口を拡声器に近づける行為に当たるマイクプリアンプが最低限必要だと思ってください。
入力するマイクで主に用いられるものとしてはダイナミックマイク・コンデンサマイク・プラグインパワーマイクが大体だと思われますが、コンデンサマイクであってもマイクプリアンプまたはその機能を内包したミキサーが欲しいところであります。
なぜその必要があるかというところですが、入力のゲインをマシマシしてしまうと、ノイズをそのまま増やす事となり、その結果ボイスチェンジする部分で誤変換をしてしまうこととなる要因になってしまうためです。

マイク-プリアンプ(該当機能を内包したミキサー)-ボイスチェンジ-出力

先ほど説明した点を踏まえますと上記のような構成になると思います。
これに加えまして、ボイスチェンジする段階で変換してほしい周波数のみを指定してやりますと、さらに誤変換の割合は減りますので、それを基にしますと...

マイク-プリアンプ(該当機能を内包したミキサー)-(グラフィック・パラメトリック)イコライザ-ボイスチェンジ-出力

上記のようになっていきます。
男性の声を例に挙げますと80～100Hzより下の周波数が含まれておりませんので、そういった部分をカットすることによって誤変換の元となる音をボイスチェンジの段階に入れないようにすることが可能になります。
ミキサーを使ってケーブルノイズを消すことはあまりよろしくないのですが、どうしようもない機器のホワイトノイズを消すことも出来るといえば出来ます。

これにて一先ずボイスチェンジ環境がそろうわけですが、とりあえずピッチを上げて出力された音と無変換で出力された音を聞いてみてください。
男性の場合で試すときは、寝起きの時の声、ほぼ地声、喉のエッジ(振動)を減らした声、喉のエッジ(振動)を減らしつつも遠くの人に通るような声、地声成分も入った低い裏声、完全に裏声を通してみてください。
どれを通してみても感じるのは、音量が小さくなっている点と声が奥に籠ったようなものになっている点だと思われます。

せっかくプリアンプやイコライザを導入しているのであれば、まずそちらから弄ってみましょう。
プリアンプもいきなり+に最大に振り切った状態にしますと音割れした出力音を出すだけになりますので、ボイスチェンジの部分で音を増幅するのではなく、その前段階のプリアンプ部分で増幅してやる感じで少しずつ調整してやるといいと思います。
また、イコライザの理解を得るために勉強するかってなりますと、英和辞書ほどの厚みがある本を手にする羽目になりますので、とりあえず弄っていく際は+にして目立たせるのではなく、強調したい周波数以外を-にして調整してください。

それでも声が奥に引っ込んだ感じがする方はエキサイター(エンハンサー)を噛ませてみるとより効果的です。その場合は...

マイク-プリアンプ(該当機能を内包したミキサー)-(グラフィック・パラメトリック)イコライザ-ボイスチェンジ-エキサイター(エンハンサー)-出力

となります。自環境ですとエキサイターが最も効果的に声の音色(声質ではない)が変わったように感じました。
仕組みはよくわかっていませんが、イコライザに表示されている波形を見てみると、基音から連なる倍音が増えていることがわかり、倍音が増えるという事は音に艶が出るということになりますので、つまりそういうことなのかなと思います。
ただし、こちらもイコライザと同じく広域部分だけ目立たせようとすると、声がギザギザになってしまうので、かけすぎに注意です。
自環境ですとAphex Exciterを使用しているのですが、こちらはベリンガーやBBEのものよりもかかりが強いみたいなので、少ししかノブを回しておりません。

ここで今更なお話になりますが、ボイスチェンジ機材を通してどのような声に変換したいかは個々人によって様々であると思われますが、すごく低い声しか出せない方がすごく高い声に変換するというプロセスは基本的にうまくいかないものと思ってください。
しかし、男性の声の高さも基本的にみんなそんなに変わらなくて、エッジ(呪怨のアアアアみたいなの)や響きの部分が音の低さとして認識される起因になっているとかいう論文をはるか昔に読んだ気がするので諦めないで欲しいです。
これに加えましてボイスチェンジ機材を通してない男性の声でも、平均200Hz~220Hzの声を出していれば、リアルで声パス出来るとかいう論文をこれまたはるか昔に見た気がしますので、ボイスチェンジ機材はそのためのアプローチに思っていただければと個人的には考えております。
また、人の構成と設定をパクったからうまくいくってこともほぼないと思われますので、ある程度試行錯誤は必要になってくる事を踏まえた上でソフトボイスチェンジ環境を紹介しようと思います。

まずはVSTの方からになりますが、基本的に通るフローは当記事で紹介したものと同じで、上記の画像ですと上から下に通っていく順序になります。
コンプレッサーやイコライザーに関しては、無料で探しても腐るほどありますので、何でもいいですよって感じです。
また、iZotope系のノイズ除去プラグインですが、始めは使っていましたが、かければかけるほど音が硬くなるし、誤変換を減らす要因としてはあまり役立っている気がしないので今は使ってすらいません。

そして、肝心のボイスチェンジに当たる部分ですが、Flux IRCAMは息抜けがたまに発生するので入力に気を遣う必要があり個人的にその点好きではないのですが、いきなり高い音を入力してしまった場合に上限補正を入れてくれる項目があり、こちらとイコライザをうまく合わせて使えばいい感じになるのではと思っているので、未だに弄れてる感じが全くありません。むしろどなたか教えてください...
SoundToys Little AlterBoyの方はよく無料ボイスチェンジプラグインで紹介されてるRoveeや恋声より音質もいい感じがして、またキーを上げてもそれらより声が物故割れにくいので個人的には気に入っています。
こちらはBOSS VT-1を元に作成されたプラグインみたいですので、自分でも使っているRoland UA-100と同様に弄れるという点が楽なのかもしれません。
神ボイスチェンジャー()などのソフト単体で動くものも試してみましたが、追加調整が出来ない点とそれらが行えないことによる声質依存の物であるという認識の為、こちらではあえて紹介いたしません。

ほぼディレイなしのハードの方も紹介したいのですが、正直適当に書いてもここまで長くなると思ってなかったので暫定記事として公開しておきます。

(19.01.30) 追記
あまりにも適当に書きすぎたので補足説明加えます。
手持ちのハードウェアボイチェン機材ですとRoland UA-100とTC-Helicon Voiceworks Plusがあるのですが、前者は声以外の周辺環境音をそのまま変換しようとし、後者は基本的には素通りです(音量によって変換かけるか判定してるっぽい)
また、現行機で流行のRoland VT-4を囁き声にも対応させるために常時変換機能をオンにしてる場合、UA-100と同様にすべての音を常時変換かけるため、ピッチを高くすればするほどそれらも釣られて高くなってしまうことになります。
声だけであれば完成度高くても、それらが入ることによる弊害もなきにしもあらずですので、それらを踏まえて以下のソフトウェアボイチェン構成をおすすめします。

マイク-プリアンプ(該当機能を内包したミキサー)-(グラフィック・パラメトリック)イコライザ-ボイスチェンジ-エキサイター(エンハンサー)-出力

前回の投稿時は上記のようにすることをおすすめしておりましたが、この場合ですと周辺音変換の問題もありますので、高めのピッチをとっている方はボイスチェンジの前段階にゲート処理プラグインをかます必要があるように思えます
吐息を変換したいのか、それとも周辺環境音を変換したくないのか、など個々人によって様々だとは思われますが、ソフトウェアボイチェンで綺麗に吐息変換しようとした場合、ピッチが高ければ高いほど電子音っぽいものが乗ってしまいます。
実際にやってみるのがわかりやすいので、後ほど音声を貼り付けてみようと思うのですが、言葉にするのであれば(ふぅー)とため息をつく音は電子音が乗りやすく、ふぅーと声になっている音であるほど電子音は乗りづらいです。
また、自分の場合は基本的に1オクターブ上げの楽したい設定を基本的に組むので、そういうことをされている方であればまず気になると思うのですが、さしすせそなどのS音がうるさく感じると思います。
ですので、この場合の対処法としてディエッサーを入れる必要があるように思います。
しかし、これもかけすぎるとiZotope系のプラグイン同様に声が固くなり電子音っぽさが全体に浸透してしまいますので、ほどほどにすることをおすすめします。
更に、ピッチを高くとればとるほどきちんと発音していない部分の変換に電子音のようなものが混じっている感覚を覚える方もいると思いますので、Transient系VST(Transient Masterなど)を挟むことでより馴染むようになると思います。

利用者の声の相性もあると思いますが手持ちのボイチェン用途に利用しているVSTを前段にVSTなしで1オクターブ上げ利用した場合の体感比較したものを下記に残しておきます。
個人的にはピッチ調整幅低めで使う場合、どれ使ってもそんなに変わらんって認識ですので、楽したい方向けの比較になると思います。

・Rovee
・AutoTune
・Throat Evo
・Manipulator
・IRCAM TRAX
・SoundToys Little ALtorBoy

エッジ効かせた声に強い順
IRCAM>SoundToys / Throat Evo>Manipulator / AutoTune>>Rovee

返し声の遅れ具合の短さ
Rovee>SoundToys / Manipulator / AutoTune>Throat Evo>>>IRCAM

ウィスパー変換時のざらつき感の度合いの強さ
Rovee>IRCAM / Manipulator / AutoTune>Throat Evo / SoundToys

アクエリよりポカリ

2019年1月7日月曜日

ボイスチェンジャーで遊ぼう

0 件のコメント:

コメントを投稿