神戸大学附属図書館デジタルアーカイブ
入力補助
English
カテゴリ
学内刊行物
ランキング
アクセスランキング
ダウンロードランキング
https://doi.org/10.24546/81013229
このアイテムのアクセス数:
7
件
(
2024-04-20
21:49 集計
)
閲覧可能ファイル
ファイル
フォーマット
サイズ
閲覧回数
説明
81013229 (fulltext)
pdf
1.15 MB
7
メタデータ
ファイル出力
メタデータID
81013229
アクセス権
open access
出版タイプ
Version of Record
タイトル
深層学習を用いた唇画像から音声への変換
その他のタイトル
Lip-to-speech conversion using deep neural networks
著者
伊藤, 大貴 ; 滝口, 哲也 ; 有木, 康雄
著者名
伊藤, 大貴
著者ID
A1279
研究者ID
1000040397815
KUID
https://kuid-rm-web.ofc.kobe-u.ac.jp/search/detail?systemId=b3ec2a1710d8267b520e17560c007669
著者名
滝口, 哲也
Takiguchi, Tetsuya
タキグチ, テツヤ
所属機関名
都市安全研究センター
著者ID
A0260
研究者ID
1000010135519
KUID
https://kuid-rm-web.ofc.kobe-u.ac.jp/search/detail?systemId=09a784b8ffbc912c520e17560c007669
著者名
有木, 康雄
Ariki, Yasuo
アリキ, ヤスオ
所属機関名
都市安全研究センター
収録物名
神戸大学都市安全研究センター研究報告
巻(号)
23
ページ
98-103
出版者
神戸大学都市安全研究センター
刊行日
2019-03
公開日
2022-04-11
抄録
音声の一部が欠落しているような動画の音声復元、雑音環境下における音声情報の理解や発話障害者のためのコミュニケーションツールの開発を目的として、本研究では、音声情報が含まれていない唇動画像からその唇の動きに対応した音声へと変換する音声生成システムの構築を目標とする。 従来手法においては、GMM(Gaussian Mixture Model)を用いた唇画像から音声への変換を行っていた。しかしながら、過剰な平滑化や、線形変換手法であるため、人間の声の特徴を表すスペクトルを高精度に推定できているとは言い難いといった問題点があった。 そこで本稿では、近年、類似研究でもある声質変換において高い変換精度を持つことが知られているDNN(Deep Neural Networks)を用いた唇画像から音声への変換を提案する。 また、Lipreadingにおいて高精度な認識を示したLipNetと呼ばれるネットワークを転移学習して用い、画像ボトルネック特徴量とすることで、入力特徴量の抽出精度の向上を試みる。得られたボトルネック特徴量から提案するDNNモデルを用いてスペクトル特徴量を推定し、得られたスペクトル特徴量をポストフィルタによる特徴量修正を行う。得られたスペクトル特徴量から基本周波数を推定するLSTM (Long Short Term Memory)ネットワークを用い、これらの推定された特徴量を用いて音声へと変換する。 評価実験において、基本周波数の実験については、従来のGMMを用いた変換との比較により有効性を示せた。また、スペクトル特徴量の評価では、従来のGMMを用いた変換、ベースラインとなるDNNを用いた変換、そして提案手法を用いた変換の3つの音声に対し、「聞き取りやすさ」調査において提案手法の有効性を示せた。
キーワード
唇画像
音声生成
深層学習
CNN
LSTM
カテゴリ
都市安全研究センター
神戸大学都市安全研究センター研究報告
>
23号(2019-03)
紀要論文
詳細を表示
資源タイプ
departmental bulletin paper
言語
Japanese (日本語)
ISSN
1342-9167
OPACで所蔵を検索
CiNiiで学外所蔵を検索
NCID
AA11142997
OPACで所蔵を検索
CiNiiで表示
関連情報
URI
http://www.rcuss.kobe-u.ac.jp/publication/publication.html
ホームへ戻る