ピッシーのメモ帳

気になった情報の保管庫

合成音声の進化がすごいと感じた

一昔前は、VOCALOIDやゆっくりボイスといった合成音声といえばいかにも機械的な音声だった。そのため、この特徴的な音声が苦手だという人もいたかもしれない。

それが、最近聴いた合成音声を使用した楽曲ではかなり自然な音声になっていたので驚いた。例えば、以下の曲。

www.youtube.com

最近バズっているらしくかなり再生されている曲で、重音テトSVを使用している。聴いてもらえば分かるが、機械的な音声だと感じる部分がほとんどなく聴いていて違和感が少ない。*1「もしかして重音テトの中の人が歌っているのか?」と思ってしまったぐらい自然な音声で驚いた。

ちなみに、重音テトといえば以前はこんな感じの音声だった。

www.youtube.com

重音テトSVについて、公式サイトでは以下のように解説されている。

www.ah-soft.com

SynthesizerV専用歌声データベース「重音テト」は、2008年のエイプリルフールのジョークとしての誕生から15周年の記念に「小山乃舞世」の声を元に制作された全く新しいデータベースです。子供らしくも大人らしくもあり、エイジレスで癖がなくまっすぐな歌声はどんなジャンルも歌いこなします。
「Synthesizer V AI 重音テト」にはより人間らしくリアルな歌声での歌唱を可能とする最新のAI技術を使用して開発されたデータベースが収録されています。

簡単に言えば、重音テトSVは従来からあったUTAU版重音テトを最新のAI技術を使ってリメイクしたもの。ChatGPTといい最近はAIの進歩がすごい。

重音テトSVだけでなく、VOICEROIDなど最近に発売された他の合成音声も聴いたときの違和感をほとんど感じないぐらい自然な音声になっている。YouTubeを見ていると、最近はこのような新しい世代の合成音声を使用した動画や楽曲が増えているように思う。

話は大きく変わるが、確か数年前に大阪メトロ谷町線の駅放送で合成音声が使われていた時期があった。そのときは、いかにも機械的な音声にかなり違和感を感じた。私と同じように感じた人が多かったからか、その後谷町線の駅放送はナレーターの音声に戻った。今後さらに合成音声の技術が進むと、もしかしたら駅放送だけでなく様々な場所のナレーションが合成音声に置き換わってしまうのかなと思った。

*1:作者の調教の賜物なのかもしれないが…。