■これも朝日の記事。ただし、ウェブ上にはない。

映像から発音識別 「読唇技術」を開発

 唇の形の変化を撮影した映像から発音を読み取る「読唇技術」を、大阪府立大大学院の有馬正和講師(海洋システム工学)、義平真昭さんらが開発した。手話通訳や講義を書き取る筆記補助者など人的な補助が必要だった聴覚障害者を支援する会話認識システムの開発につながるという。12月2日に兵庫県で開かれる日本人間工学会関西支部大会で発表される。
 有馬さんらは今回、船酔いの研究で編み出した人の表情を映像から読み取る特殊な解析方法に着目した、約20人の学生の唇の輪郭に沿って目印になる光るテープを張り、2秒ごとに「あ」や「い」などと発音させて録画。唇の形を曲線としてとらえ、関数化して数値の変化を比較すると、発音を高い確率で識別できることがわかった。
 母音では「あ」が90%、子音でも「あ段」の中の比較で「ら」が約83%の正答率。ただ、母音は「う」が48%、子音でも「く」が13%と、発音によってはまだ、正答率が低いのが現状だ。
 しかし、今後、改良を続ければ、「人手に頼っている読唇術の訓練にも有効なシステム開発につながる」と有馬さんは期待する。   (林義則)

--------------------------------------
■いや、このての、福祉関連の目標をもった基礎研究にみずをさすようなことは、すべきでないかもしれないが、ハラナは非常に悲観的。
■たとえば「Intel、読唇技術のソースコードを公開」には、

子音は唇から読み取ることは難しいというか、無理というか。近距離なら舌の動きも多少把握できるからなんとかなるかもだけど。
だとすると、携帯電話のN9が子音+辞書で候補を出すのと一緒で、母音の連続から辞書を使って可能性の高い候補を使用するのでしょうか?

有名な例として、
「浅間山は暖かかったなあ」
AsAmAyAmAhAAtAtAkAkAttAnAA
とかはしんどそうだなぁ・・・


というかきこみがある。■ま、この「AsAmAyAmAhAAtAtAkAkAttAnAA」という分析は、モジにひきずられすぎで、「AsAmAyAmAwAAtAtAkAkAttAnAA」ないしは「AsAmAyAmAUAAtAtAkAkAttAnAA」だが、実にもっともなツッコミだ。■難聴者のひとびとが、口のかたち(口形/舌の変化)に、めをこらしながら、結局識別できないのは、「da/na」「pa/ba/ma」など、口形/舌の変化がおなじであり、しかも鼻音など、口の奥でおきている物理的変化により対立している(差異がある)音素群だ。■「く」の識別率が13%とかいっているが、う段のようにあいまいな口形であれば、当然の結果だし、「く/ぐ」とか、「ぷ/ぶ/む」なんて、絶対に区別できないとおもう。■大体、「唇の輪郭に沿って目印になる光るテープを張り」といった、くちびるの輪郭の明確化なんて条件は、自然にはありえないんだしね。

■文脈を理解しながら、前後関係と母音の連続ぐあいで、文を推測する(前後の子音を推定=復元する)なんて、高度な判断ができるなんてことは、まずありえない。

■こういった基礎研究で、できる限界点を徹底的にあらいだす作業についてまで、ムダだとはいわないが、あたかもこの研究をすすめていくと、福祉関係者に朗報がとどくといった楽観は、とてもできないはず。