深層学習を用いた唇画像から音声への変換

伊藤, 大貴; 滝口, 哲也; 有木, 康雄

doi:https://doi.org/10.24546/81013229

https://doi.org/10.24546/81013229

このアイテムのアクセス数:7件（2024-04-20 21:49 集計）

閲覧可能ファイル

ファイル	フォーマット	サイズ	閲覧回数	説明
81013229 (fulltext)	pdf	1.15 MB	7

メタデータ

ファイル出力

メタデータID	81013229
アクセス権	open access
出版タイプ	Version of Record
タイトル	深層学習を用いた唇画像から音声への変換
その他のタイトル	Lip-to-speech conversion using deep neural networks
著者	伊藤, 大貴 ; 滝口, 哲也 ; 有木, 康雄
著者名伊藤, 大貴
著者ID A1279 研究者ID 1000040397815 KUID https://kuid-rm-web.ofc.kobe-u.ac.jp/search/detail?systemId=b3ec2a1710d8267b520e17560c007669 著者名滝口, 哲也 Takiguchi, Tetsuya タキグチ, テツヤ所属機関名都市安全研究センター
著者ID A0260 研究者ID 1000010135519 KUID https://kuid-rm-web.ofc.kobe-u.ac.jp/search/detail?systemId=09a784b8ffbc912c520e17560c007669 著者名有木, 康雄 Ariki, Yasuo アリキ, ヤスオ所属機関名都市安全研究センター
収録物名	神戸大学都市安全研究センター研究報告
巻(号)	23
ページ	98-103
出版者	神戸大学都市安全研究センター
刊行日	2019-03
公開日	2022-04-11
抄録	音声の一部が欠落しているような動画の音声復元、雑音環境下における音声情報の理解や発話障害者のためのコミュニケーションツールの開発を目的として、本研究では、音声情報が含まれていない唇動画像からその唇の動きに対応した音声へと変換する音声生成システムの構築を目標とする。従来手法においては、GMM(Gaussian Mixture Model)を用いた唇画像から音声への変換を行っていた。しかしながら、過剰な平滑化や、線形変換手法であるため、人間の声の特徴を表すスペクトルを高精度に推定できているとは言い難いといった問題点があった。そこで本稿では、近年、類似研究でもある声質変換において高い変換精度を持つことが知られているDNN(Deep Neural Networks)を用いた唇画像から音声への変換を提案する。また、Lipreadingにおいて高精度な認識を示したLipNetと呼ばれるネットワークを転移学習して用い、画像ボトルネック特徴量とすることで、入力特徴量の抽出精度の向上を試みる。得られたボトルネック特徴量から提案するDNNモデルを用いてスペクトル特徴量を推定し、得られたスペクトル特徴量をポストフィルタによる特徴量修正を行う。得られたスペクトル特徴量から基本周波数を推定するLSTM (Long Short Term Memory)ネットワークを用い、これらの推定された特徴量を用いて音声へと変換する。評価実験において、基本周波数の実験については、従来のGMMを用いた変換との比較により有効性を示せた。また、スペクトル特徴量の評価では、従来のGMMを用いた変換、ベースラインとなるDNNを用いた変換、そして提案手法を用いた変換の3つの音声に対し、「聞き取りやすさ」調査において提案手法の有効性を示せた。
キーワード	唇画像
	音声生成
	深層学習
	CNN
	LSTM
カテゴリ	都市安全研究センター
	神戸大学都市安全研究センター研究報告＞ 23号（2019-03）
	紀要論文

資源タイプ	departmental bulletin paper
言語	Japanese (日本語)
ISSN	1342-9167　OPACで所蔵を検索　 CiNiiで学外所蔵を検索
NCID	AA11142997　OPACで所蔵を検索　 CiNiiで表示
関連情報	URI http://www.rcuss.kobe-u.ac.jp/publication/publication.html

閲覧可能ファイル

メタデータ

詳細を表示