齊藤 剛史 研究室

九州工業大学 大学院情報工学研究院 知能情報工学研究系


スマートデバイスを用いた
発話シーンデータベース(SSSD)


SSSDとは?

SSSDは、九州工業大学齊藤剛史研究室で構築した、スマートデバイスを用いた発話シーンデータベース(Speech Scene database by Smart Device)の略で、読唇研究向けの公開データベースです。

話者がスマートデバイスのインカメラを利用して、話者自身で撮影した発話シーンを収録しています。話者はスマートデバイスを手で持つ、壁に掛ける、あるいは机に置く、で撮影しています。撮影場所は、大学の研究室や講義室、自宅、自動車内などで撮影しています。話者は発声している場合だけでなく、小声、あるいは発声せずに発話しているシーンもあります。


News

  • 2019年5月17日(金):LF-ROIを用いた3D-CNNによる認識プログラムを公開しました。こちらをご覧ください。
  • 2019年5月15日(水):全データベースを更新しました。話者数およびサンプル数を変更しました。
    • 話者数を36名→72名に追加しました。
    • サンプル数を30サンプル→10サンプルに減らしました。
    • 顔特徴点検出をOpenPoseの顔特徴点検出機能からdlibのshape_predictorに変更しました。これに伴い特徴点数は70点→68点に変わりました。
  • 2018年7月31日(火):LF-ROIにおいてs32_018_001の00046.jpgファイルが不足していました。s32.zipファイルを更新しました。
  • 2018年5月22日(火):コンペティション「機械読唇チャレンジ」(第5回サイレント音声認識ワークショップ)用の5,000テストデータを公開しました。
  • 2018年4月8日(日):本データベースを公開しました。

SSSDの詳細

  • 発話内容:日本語25単語
    # 発話内容 # 発話内容 # 発話内容
    0 ぜろ 10 ありがとう 20 どういたしまして
    1 いち 11 いいえ 21 はい
    2 12 おはよう 22 はじめまして
    3 さん 13 おめでとう 23 またね
    4 よん 14 おやすみ 24 もしもし
    5 15 ごめんなさい
    6 ろく 16 こんにちわ
    7 なな 17 こんばんわ
    8 はち 18 さようなら
    9 きゅう 19 すみません

  • 発話者数:72名(男性38名、女性34名)
    • 性別分布
    • 年齢分布

  • 提供データ
    • 72名(男性38名、女性34名) × 25単語 × 10発話 = 18,000発話

    • 顔下半分画像LF-ROIのフレーム画像(画像サイズ:300×300画素、jpeg形式)
      • 動画像形式ではありません。フォルダに発話シーン単位で格納されています。
      • フレーム画像のファイル名は1から始まる5桁の通し番号(%05d.jpg)の形式ですが、顔検出に失敗により抜けているフレーム画像もあります。
      • 話者12名(3,000発話)単位でzip形式でまとめてあります。一つのzipファイル容量は約1名あたり約3GB、72名分で約20GBです。
      下図は72名のLF-ROI例です。

      下図はs010_011_007(話者s010の単語011「ありがとう」の発話シーン)のLF-ROIフレーム画像をgifアニメに変換したものです。

      サンプル:s010_011_007.zip(約1.83MB)話者s010の単語011「ありがとう」の発話シーン

    • 顔特徴点座標(68点のx-y座標、csv形式)
      全話者(72名)をzip形式でまとめてあります。ファイル容量は約259MBです。
      サンプル:s010_011_007.csv(約36kB)話者s010の単語011「ありがとう」の発話シーン

    • 音声データ:なし

    • LF-ROIと顔特徴点座標の関係

    • 提供データの前処理(LF-ROIの抽出方法など)については、論文[1][2]を参考にして下さい。

    • データリスト(18,000分)

    • その他:提供データは2019年5月15日時点のものです。今後、提供データの内容が変更する可能性もあります。

  • 撮影機器:スマートデバイス(Apple iPad Pro、各種スマートフォン)

  • フレームレート:30fps

  • 利用範囲:研究に限ります。改変や再配布等は禁止します。

  • 公開日:2018年4月8日

  • 価格:無償

  • 配布方法:利用契約書に記入し、下記お問い合わせ先にFAXあるいはメール(記入済み利用契約書をスキャンして、pdf形式あるいはjpeg形式で保存してメール添付)で利用契約書を提出して下さい。利用契約書を受理した後、配布方法をメールで連絡します。データは外部クラウドストレージで管理しています。ストレージへアクセスするために、利用契約書に記入していただいたメールアドレスを登録します。

  • ご利用の際には以下の論文を引用して下さい。
    • [1] 齊藤 剛史, 窪川 美智子: SSSD:スマートデバイスを用いた読唇技術向け日本語データベース, 電子情報通信学会技術研究報告, vol.117, no.513, pp.163-168, 2018.
    • [2] Takeshi Saitoh, Michiko Kubokawa: SSSD: Speech Scene Database by Smart Device for Visual Speech Recognition, Proc. of ICPR2018, pp.3228-3232, 2018.

  • お問い合わせ先:
    九州工業大学 大学院情報工学研究院 齊藤剛史
    E-mail:saitoh at ai.kyutech.ac.jp
    FAX:0948-29-7713

  • 本研究の一部は、JSPS科研費16H03211および平成28年度文部科学省地域イノベーション・エコシステム形成プログラム「IoTによるアクティブシニア活躍都市基盤開発事業」の助成によるものです。