アーティキュレートリー・シンセシス
アーティキュレートリー・シンセシス (英: articulatory synthesis)、調音合成 (ちょうおんごうせい) あるいは 調音音声合成 とは、人間の声道のモデルと そこで行なわれる調音プロセス (articulation) に基づいて音声合成を行なうための計算手法である。声道の形状は通常、舌や顎、唇といった調音器官の位置変更と関連した数多くの調音方法で制御できる。声道の表現を介した空気の流れのデジタル・シミュレーションで、音声が生成される。
機械式語り手
機械式「語り手」(talking heads) の製作の試みには長い歴史がある。[2] オーリヤックのジェルベール (–1003)、アルベルトゥス・マグヌス (1198–1280)、ロジャー・ベーコン (1214–1294) らは皆、喋る頭 (speaking heads) を作ったと言われている (Wheatstone 1837)。しかしながら、歴史的に確認された音声合成の始まりは訳注: クリスティアン・クラッツェンシュタイン (1723–1795)[3] とヴォルフガング・フォン・ケンペレン (1734–1804)であり、ケンペレンは1791年に研究報告[4]を出版した。(Dudley & Tarnoczy (1950)も参照)
電子式声道
最初の電子式アナログ声道は、Dunn (1950)やStevens, Kasowski & Fant (1953)、Fant (1960)のように静的なものだった。Rosen (1958)は動的な声道 (DAVO)を組み立て、後にDennis (1963)がコンピュータ制御を試みた。Dennis & et al. (1964))、比企 & et al. (1968))、Baxter & Strong (1969)らもアナログ声道ハードウェアについて説明している。
最初のコンピュータ・シミュレーションは、Kelly & Lochbaum (1962)が行なった; その後デジタルコンピュータによるシミュレーションを、例えば中田 & 光岡 (1965)、松井 (1968)、Mermelstein (1971))が行なった。本多, 井上 & 小川 (1968)はアナログコンピュータによるシミュレーションを行なった。
Haskinsと前田のモデル
研究室の実験で定期的に使用される 最初のソフトウェアによる調音シンセサイザーは、1970年代半ばにHaskins Laboratoriesで Philip Rubin, Tom Baer, Paul Mermelstein により開発された。ASY (Articulatory Synthesis)[5]として知られるこのシンセサイザーは、1960年代–1970年代にベル研究所で Paul Mermelstein, Cecil Coker, およびその同僚らによって開発された声道モデルに基づく音声生成の計算モデルだった。もう一つの頻繁に使用された著名なモデルは、前田 眞治 (Shinji Maeda)による、舌の形状制御に因子ベースのアプローチ (factor-based approach) を使ったモデルである。
現代的なモデル
音声生成イメージング、調音制御モデリング、舌の生体力学モデリング の最近の進展は、調音合成が行われる方法に変化をもたらしている。[6] 一例として、Philip Rubin, Mark Tiede,[7] Louis Goldstein[8] が設計したHaskins CASYモデル (Configurable Articulatory Synthesis)[9]では、声道の縦断面を実際の核磁気共鳴画像(MRI)データと一致させており、MRIデータを声道の3次元モデルの構築に使用している。 フル3次元の調音合成モデルは Olov Engwall[10]が説明している。[11] 幾何学的に基づいた3次元調音スピーチ・シンセサイザーはPeter Birkholzにより開発されている。(VocalTracLab[12]参照) ArtiSynthプロジェクト[13]は、 ブリティッシュコロンビア大学のSidney Fels[14]が率いており、人間の声道と上気道のための3次元生体力学モデリング・ツールキットを提供している。 舌などの調音器官の生体力学モデリングは、Reiner Wilhelms-Tricarico,[15] Yohan Payan[16] と Jean-Michel Gerard, [17] 党 建武 (Jianwu Dang)[18] と 本多 清志 (Kiyoshi Honda)[19] など数多くの科学者によって開拓されている。
商用モデル
数少ない商用の調音スピーチ・シンセシス・システムの一つは、NeXTベースのシステムで、多数の独自研究が実施されていたカナダのカルガリー大学のスピンオフ企業 Trillium Sound Researchにより開発・販売された。 1980年代後半スティーブ・ジョブスが設立し、1997年Apple Computerと合併した NeXTの様々な転生が消滅した後、TrilliumのソフトウェアはGNU General Public Licenseで公開され、Gnuspeech[20]として継続している。 1994年に最初に発売されたこのシステムは、René Carré[21]の"Distinctive Region Model" (DRM)[22][23]で制御される、人間の口腔および鼻腔の導波路 (waveguide) モデルもしくは 伝送路アナログ(transmission-line analog) を使った[24](訳注: Tube Resonance Model (TRM)[25])、フル調音ベースのテキスト読み上げ変換を提供する。
脚注
- Birkholz, Peter (2013). “Modeling Consonant-Vowel Coarticulation for Articulatory Speech Synthesis”. PLOS ONE 8 (4): e60603. Bibcode: 2013PLoSO...860603B. doi:10.1371/journal.pone.0060603. PMC 3628899. PMID 23613734 .
- Rubin, Philip; Vatikiotis-Bateson, Eric (1998–2006), Talking Heads, Haskins Laboratories. (PDF)
- Paget 1930
- Kempelen 1791
- Articulatory Synthesis, Haskins Laboratories
- “15th ICPhS - Barcelona 2003 - Programme”, The 15th International Congress of Phonetic Sciences, Barcelona, 2003 (International Phonetic Association), オリジナルの2007-05-22時点におけるアーカイブ。
- Mark Tiede, Haskins Laboratories
- Louis M. Goldstein, Haskins Laboratories
- CASY, Haskins Laboratories
- Olov Engwall, Sweden: Royal Institute of Technology (KTH)
- Engwall 2003
- Peter Birkholz, VocalTractLab , "An articulatory speech synthesizer and tool to visualize and explore the mechanism of speech production with regard to articulation, acoustics, and control."
- ArtiSynth, Canada: University of British Columbia , "A 3D Biomechanical Modeling Toolkit for Physical Simulation of Anatomical Structures"
- Sidney Fels, Canada: University of British Columbia
- Reiner Wilhelms-Tricarico, Haskins Laboratories
- Yohan Payan, TIMC-IMAG
- http://www-timc.imag.fr/gmcao/en-fiches-projets/modele-langue.htm, TIMC-IMAG
- Intelligent Information Processing Laboratory (Dang Lab), JAIST
- 本多 清志 (Spring 2004), “生体イメージングによる音声生成機構の観測”, ATR Journal (51)
- Gnuspeech, GNU Project, Free Software Foundation (FSF)
- René Carré, Dynamique Du Langage, CNRS
- Mrayati, Carre & Guerin 1988
- Mrayati, Carre & Guerin 1990
- Hill, David; Manzara, Leonard; Schock, Craig (1995), “Real-time articulatory speech-synthesis-by-rules”, Proc. AVIOS Symposium: 27–44. (PDF)
- Manzara, Leonard, “The Tube Resonance Model Speech Synthesizer”, 49th Meeting of the Acoustical Society of America (ASA) , poster
参考文献
|
|
外部リンク
- “Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002”. 2013年10月3日時点のオリジナルよりアーカイブ。2014年5月28日閲覧。