歴史的な音声合成ソフト「XKL」で遊ぶ(4) ~仕組み編~

XKLで遊ぶ記事 の第4弾。 前々回・前回で XKL の基本操作を追っていきました。これでいろいろな音声が生成できそうです。 もっと音声合成で遊ぶために、各パラメータの意味を把握しておきたいところです。そのまえに、Klatt Synthesizerの歴史と構造についてざっと調べてみました。 おおまかな歴史 1. 初期の Klatt Synthesizer (1980年) Dennis Klatt氏が最初に Klatt Synthesizer を発表したのは、1980年の " Software for a cascade/parallel formant synthesizer " という論文のようです。 https://www.fon.hum.uva.nl/david/ma_ssp/doc/Klatt-1980-JAS000971.pdf この1980年版の Klatt Synthesizer は以下のような構成です。 [Klatt, 1980] より引用 これが最もベーシックな Klatt Synthesizer です(細かい部分は以降で見ていきます)。その後のバージョンで細かな変更や拡張が行われるものの、大まかにはこの時点ですでに完成されています。 この1980年の論文のなかで、「HANDSY.FOR」というFORTRAN のプログラムが掲載されています。このプログラムは当時のコンピュータである DEC PDP-11 向けに書かれたものでした。以下のリポジトリでは、gcc の GNU Fortran でコンパイルできるように整備されています。 https://github.com/jh4xsy/klatt80 すこし脱線しますが、初期のKlatt Synthesizerをベースに作られたのが DECtalk です。 車椅子の理論物理学者であるスティーヴン・ホーキング博士の機械音声は DECtalk で合成されたものです。 また、テクノミュージックの巨匠である Kraftwerk が「Music Non Stop」で使った合成音声も DECtalk だそう。 ちなみに DECtalk は、現在はオープンソースで公開されています。各プラットフォーム向けのバイナリも配布されているので手軽に試せます。 https://github.com/dect...