齊藤剛史研究室

九州工業大学大学院情報工学研究院知能情報工学研究系

スマートデバイスを用いた
発話シーンデータベース（SSSD）

SSSDとは？

SSSDは、九州工業大学齊藤剛史研究室で構築した、スマートデバイスを用いた発話シーンデータベース（Speech Scene database by Smart Device）の略で、読唇研究向けの公開データベースです。

話者がスマートデバイスのインカメラを利用して、話者自身で撮影した発話シーンを収録しています。話者はスマートデバイスを手で持つ、壁に掛ける、あるいは机に置く、で撮影しています。撮影場所は、大学の研究室や講義室、自宅、自動車内などで撮影しています。話者は発声している場合だけでなく、小声、あるいは発声せずに発話しているシーンもあります。

News

2019年5月17日（金）：LF-ROIを用いた3D-CNNによる認識プログラムを公開しました。こちらをご覧ください。
2019年5月15日（水）：全データベースを更新しました。話者数およびサンプル数を変更しました。
- 話者数を36名→72名に追加しました。
- サンプル数を30サンプル→10サンプルに減らしました。
- 顔特徴点検出をOpenPoseの顔特徴点検出機能からdlibのshape_predictorに変更しました。これに伴い特徴点数は70点→68点に変わりました。
2018年7月31日（火）：LF-ROIにおいてs32_018_001の00046.jpgファイルが不足していました。s32.zipファイルを更新しました。
2018年5月22日（火）：コンペティション「機械読唇チャレンジ」（第5回サイレント音声認識ワークショップ）用の5,000テストデータを公開しました。
2018年4月8日（日）：本データベースを公開しました。

SSSDの詳細

発話内容：日本語25単語

#	発話内容	#	発話内容	#	発話内容
0	ぜろ	10	ありがとう	20	どういたしまして
1	いち	11	いいえ	21	はい
2	に	12	おはよう	22	はじめまして
3	さん	13	おめでとう	23	またね
4	よん	14	おやすみ	24	もしもし
5	ご	15	ごめんなさい
6	ろく	16	こんにちわ
7	なな	17	こんばんわ
8	はち	18	さようなら
9	きゅう	19	すみません

発話者数：72名（男性38名、女性34名）
- 性別分布
- 年齢分布
提供データ
- 72名（男性38名、女性34名） × 25単語 × 10発話＝ 18,000発話
- 顔下半分画像LF-ROIのフレーム画像（画像サイズ：300×300画素、jpeg形式）
  - 動画像形式ではありません。フォルダに発話シーン単位で格納されています。
  - フレーム画像のファイル名は1から始まる5桁の通し番号（%05d.jpg）の形式ですが、顔検出に失敗により抜けているフレーム画像もあります。
  - 話者12名（3,000発話）単位でzip形式でまとめてあります。一つのzipファイル容量は約1名あたり約3GB、72名分で約20GBです。
  下図は72名のLF-ROI例です。
  
  下図はs010_011_007（話者s010の単語011「ありがとう」の発話シーン）のLF-ROIフレーム画像をgifアニメに変換したものです。
  
  サンプル：s010_011_007.zip（約1.83MB）話者s010の単語011「ありがとう」の発話シーン
- 顔特徴点座標（68点のx-y座標、csv形式）
  全話者（72名）をzip形式でまとめてあります。ファイル容量は約259MBです。
  サンプル：s010_011_007.csv（約36kB）話者s010の単語011「ありがとう」の発話シーン
- 音声データ：なし
- LF-ROIと顔特徴点座標の関係
- 提供データの前処理（LF-ROIの抽出方法など）については、論文[1][2]を参考にして下さい。
- データリスト（18,000分）
  - ・LF-ROIフォルダのリスト
  - ・CSVファイルのリスト
  - ※リストファイルは、1列目にCSVファイル名（あるいはLF-ROIフォルダ名）、2列目に正解単語番号（0～24）が記されています。
- その他：提供データは2019年5月15日時点のものです。今後、提供データの内容が変更する可能性もあります。
撮影機器：スマートデバイス（Apple iPad Pro、各種スマートフォン）
フレームレート：30fps
利用範囲：研究に限ります。改変や再配布等は禁止します。
公開日：2018年4月8日
価格：無償
配布方法：利用契約書に記入し、下記お問い合わせ先にFAXあるいはメール（記入済み利用契約書をスキャンして、pdf形式あるいはjpeg形式で保存してメール添付）で利用契約書を提出して下さい。利用契約書を受理した後、配布方法をメールで連絡します。データは外部クラウドストレージで管理しています。ストレージへアクセスするために、利用契約書に記入していただいたメールアドレスを登録します。
ご利用の際には以下の論文を引用して下さい。
- [1] 齊藤剛史, 窪川美智子: SSSD：スマートデバイスを用いた読唇技術向け日本語データベース, 電子情報通信学会技術研究報告, vol.117, no.513, pp.163-168, 2018.
- [2] Takeshi Saitoh, Michiko Kubokawa: SSSD: Speech Scene Database by Smart Device for Visual Speech Recognition, Proc. of ICPR2018, pp.3228-3232, 2018.
お問い合わせ先：
九州工業大学大学院情報工学研究院　齊藤剛史
E-mail：saitoh at ai.kyutech.ac.jp
FAX：0948-29-7713
本研究の一部は、JSPS科研費16H03211および平成28年度文部科学省地域イノベーション・エコシステム形成プログラム「IoTによるアクティブシニア活躍都市基盤開発事業」の助成によるものです。

⏎ Home

スマートデバイスを用いた発話シーンデータベース（SSSD）

SSSDとは？

News

SSSDの詳細

スマートデバイスを用いた
発話シーンデータベース（SSSD）