MidjourneyとD-IDという2つのサービスを使ってキャラクターに声を吹き込む手順をご紹介します。今回の手順は全て無料で出来ます。(※無料版だと試行回数制限はあります) Midjourneyの使用者が増えすぎたため、現在は無料版が停止していて有料使用のみとなってます。(2023/4)
▶︎ Midjourney 公式サイト
▶︎ D-ID 公式サイト
まず始めに、D-IDでキャラクターに声を吹き込んだ生成結果を先にお見せします。声だけじゃなく、顔のモーフィングぽい傾きの動きや瞬きまで、1枚のキャラクター画像からある程度再現してくれてます!
ボイスが英語になってますが、記事の最後では日本語ボイスで生成したものもあります。
この記事を読んでもらえれば、誰でも簡単に作れるようになるのでぜひチェックしてみてくださいね。
ツール同士が連携して1人のキャラクターを構築してくれる過程ってなんだかワクワクしますよね!
では、いってみましょう!
Midjourneyでキャラクターのデザインを生成する
キャラクターの正面デザインを生成する
声を吹き込む際に重要なのは、口元が認識しやすい正面だという事。なので、プロンプトで
- front
- front face
- front view
などのプロンプトで指定すると、正面を向いてくれるかと思います。(たまに指示を聞いてくれない子もいます)
今回、Midjourneyの大まかな使い方は省略します。
デザインが決まったら高解像度出力する
4枚の中から使用したいキャラクターが決まったら、高画質出力するために該当する番号のU1〜U4のどれかを選択して下さい。UはUpscaling (高解像度化) という意味です。
キャラクター画像を保存する。
1024×1024のピクセルサイズで出力された画像をローカルに保存してください。今回は、サイトのキーカラーでもあるターコイズカラーのジャケットを着こなす精悍な表情のこの少年に声を吹き込んでみようと思います!
D-IDでキャラクターの喋る動画を生成する
D-IDのサイトにアクセスして無料トライアル版をスタートする
▶︎D-ID 公式サイト
D-IDの公式サイトにアクセスしたら、右上の赤枠で囲われている「FREE TRIAL」を選択します。
※左側に「TRY IT NOW」ボタンもありますが、こちらはサービス概要に飛びます。
※すぐ右側にログインボタンもありますが、このタイミングではスルーで大丈夫です。
動画の作成を始める
入ったばかりのUI画面はこんな感じになります。プロモーション動画が一つだけ入っただけの状態になります。
UI左側のメニューバーに並んでいる「+ Create Video」か、右上にある同名のボタンをタップして先に進んでください。
キャラクター画像を登録する
次にこのキャラクター、ここではプレゼンターと言いますが、このプレゼンターを選択するUIが出てきます。
今回は自分で作成したキャラクターを使用したいので、「+ ADD」を選択します。
すると、ここでサインイン or サインアップが求められます。GoogleかLinkedInのアカウントがあれば、そのままサインインできるので便利です。
サインインしたら、再び「+ ADD」ボタンを選択しローカルに保存した自分のキャラクター画像を選んでください。
すると、既存の用意されたプレゼンターの左側に自分のキャラクターのサムネイルが表示され、UI上部にキャラクター画像が大きく配置されます。
画面UI全体はこんな感じになります。中央のキャラクター画像を見て想像を膨らませながら、UI右側のセリフや声を決めていきます。
言語選択をする
まずセリフをテキストで入力する前に、キャラクターに話させたい言語を何にするか決めます。
セリフを入力する
言語が決まったら、その言語に則った言葉で入力欄にセリフを入れていきます。文字数は、日本語 (全角) / 英語 (半角) 共に3875文字が上限となってます。
今回はせっかくなので、ChatGPTにも協力いただきました!
「メタバースの世界に取り込まれたネオ東京で、METAGOCOLOGというブログで記事を執筆しているノタリという男の子について、魅力ある自己紹介文を制作してください。」
「今の答えを英語でもお願い!」
とお願いし、日本語版と英語版それぞれを考えてもらったセリフに少しだけ手入れをしました。
セリフ入力欄の下部に配置されている3つの機能ボタンについて説明します。
①音声プレビュー:スピーカーマーク (左) のボタンを押すと、今選択されている声で文章を読み上げてくれます。
使い方:キャラクター画像を見ながら頭の中でイメージしている声を想像して、用意されたボイスを選び直してはプレビューで聞いてを繰り返す形で使う事になると思います。
②一呼吸:文章の合間を選択して、時計マーク (中央) のボタンを押すとその合間に一呼吸「間」を取ってくれます。
使い方:文中に句読点を入れたとしても、メリハリがない印象がしたら、たまに間に一呼吸入れると自然になります。
③文章生成AI:冒頭に少し文章を入れてから、スティックマーク (右) のボタンを押すと文章を自動で生成してくれます。
使い方:試してみた所、ChatGPTほどの精度は無いので、ChatGPTが使えるのであればそちらを使った方が良いです。
サンプル入力「日本について」と入力してから、生成ボタンをクリック。
生成結果「日本は、様々な文化や歴史をもつ国家です。日本のお国柄は、空気を読むことができるように、高く舞台から見下ろしたものです。日本の文化の中でも特に洋楽が人気で、多くの人が歌います。また、日本は、様々な場所で巨大な火山が見られる国です。日本人は、火山に対して、堅苦しい姿勢をとる傾向があります。日本の文化は、多くの人に愛されています。」
ボイスを選択する
いよいよボイスの選択となります。
「Voices」をクリックすると、性別で並べられた数種類あるボイスからひとつ選べます。が、無料コースだと日本語のボイスは正直少ないです。男性は全て大人の男性の声なので、男の子のボイスとなると正直厳しいので、今回はなるべくイメージに近い女性の声を適用してみました。英語版だと種類も豊富なので、日本語の種類もいつか無料コースで同じぐらいには増えて欲しいですね。
ちなみに、イントネーションなど聞いてる感じ日本語は少し生成ボイス感あるんですが、英語の方はかなり自然に聴こえます。(英語のヒアリングが出来るわけではないので、あくまで聴いた感じですが)
ボイスのスタイルを選ぶ
選んだボイスによっては、スタイルというものが用意されています。
これは、どういったものかというと、このサンプル画像で言うとチャット読み上げ風、カスタマーサービス風、陽気な感じ風といった感じに少し声色が変わります。(あまり違いは分からなかったです)
こちらも、英語版は種類が多く怒った状態など色々な感情が用意されていました。有料コースだともっと増えるようです。
動画を生成する
全て選択できたら、いよいよUI画面右上にある「GENERATE VIDEO」ボタンを選択します。すると問題なければ、生成が始まります。
ちなみに無料の場合は、クレジット制?らしく1回動画を生成したら確か4クレジットほど消費したかと思います。何を基準にしたクレジットなのかは良く分からなかったです。
コースごとの機能説明の所に、無料コースは「5分」と書いてあるので、限られた5分に対して生成した長さの動画分の割合でクレジットを引かれる仕組みなのかもしれません。( 分かる方いたら教えてください )
生成された動画を確認する
生成結果 – 英語版
こんな感じで、D-IDを使用する事で自然なリップシンクが自動で行われ顔の角度も自動で調整されます。
英語版も、男性ボイスは全て大人の声だったんですが、種類は多いので女性の方で、ある程度少年ぽさのあるボイスを選択できました。
イントネーションも聴いた感じ自然に聴こえます。
声が入るだけで、少し命を吹き込まれた感じがします。
髪の毛が置いてかれてますね…。これは絶妙な毛先などは認識できないのかもしれないので、画像生成の際にテイストや短めの髪型など指定の注意が必要かもしれません。
生成結果 – 日本語版
英語版を聴いた後だと、かなりもっさりした印象の日本語ですが、聞き取りやすいかと思います。
だいぶ女性の声ですが、これが日本語だと限界でした…。
イントネーションも、所々おかしく感じますが無料でこれだけ手軽に作れるので試すだけであればかなり楽しいです!
おわりに
いかがでしたでしょうか?
最近、AIだ自動だのの勢いが凄すぎて感覚がマヒしてきてますが、これが全てほぼ自動でしかも無料で生成できる時代が来たって、正直凄くないですか?近いうちに、キャラクターの周りぐるっと360°生成されたり全身のモーションや表情のモーション、果てはそのままアバター出力など全て複合的に繋がる世界が来るかもしれないと思うとワクワクが止まらないですよね!
ではまた!ご一読くださり、ありがとうございました!