齊藤 剛史 研究室
九州工業大学 大学院情報工学研究院 知能情報工学研究系
読唇用データベース
Name | Language | Contents | Speaker | Views |
Tulips1 | 英語 | 4数字 | 12 | 正面 |
DAVID | 英語 | digits, alphabets, VCVCV utterances, etc. | 124 | 正面、側面 |
XM2VTS | 英語 | 3文 | 295 | 正面 |
AVletters | 英語 | アルファベット26字 | 10 | 正面 |
CUVAE | 英語 | 10数字、連続10数字 | 36 | 正面、側面 |
GRID | 英語 | 4コマンド、4色など | 34 | 正面 |
AVletters2 | 英語 | アルファベット26字 | 5 | 正面 |
OuluVS | 英語 | 10文 | 20 | 正面 |
OuluVS2 | 英語 | 連続10数字、10文など | 53 | 5方向 |
LRW | 英語 | |||
LRS2 | 英語 | |||
LRS3 | 英語 | |||
LRW-1000 | 中国語 | |||
M2TINIT | 日本語 | 503文 | 1 | 正面 |
CENSREC-1-AV | 日本語 | 連続数字1~7桁 | 93 | 正面 |
SSSD | 日本語 | 25単語 | 72 | 正面 |
ITA | 日本語 | 434文(感情100文、朗読324文) | 4 | 正面 |
ROHAN4600 | 日本語 | 4600文 | 1 | 正面 |
- Tulips1
- HP: ???
- Group: カリフォルニア大学サンディエゴ校(University of California San Diego)(USA)
- Released: 1995
- Language: English
- Contents: digits("one", "two", "three", "four")
- File format: pgm(grayscale)
- Image size: 100x75[pixels]
- Frame rate: 30fps
- Speakers: 12名
- Reference:
J.R.Movellan,
Visual speech recognition with stochastic networks,
Advances in Neutral Information Processing Systems, vol.7, 1995.
- DAVID(Digital Audio-Visual Integrated Database)
- HP: ???
- Group: スウォンジー大学(University of Wales Swansea) (UK)
- Released: 1996
- Language: English
- Contents: digits, alphabets, vowel-consonant-vowel syllable utterances, some video conference commands
- File format: ???
- Image size: 640x480[pixels]
- Frame rate: ???
- Speakers: 124名
- Reference:
C.C.Chibelushi, S.Gandon, J.S.D.Mason, F.Deravi, F.D.Johnston,
Design issues for a digital audio-visual integrated database,
IEE Colloquium on Integrated Audio-Visual Processing for Recognition, Synthesis and Communication, pp.7/1-7/7, November 1996.
- XM2VTS(Extended M2VTS(Multi Modal Verification for Teleservices and Security applications))
- HP [+](有料)
- Group: サリー大学(University of Surrey) (UK)
- Released: 1999
- Language: English
- Contents: 3文
- "0 1 2 3 4 5 6 7 8 9"
- "5 0 6 9 2 8 1 3 7 4"
- "Joe took fathers green shoe bench out"
- File format: ???
- Image size: 720x576[pixels]
- Frame rate: ???
- Speakers: 295名
- Reference:
K. Messer, J. Matas, J. Kittler, J. Luettin, and G. Maitre,
XM2VTSDB: The extended M2VTS database,
Second International Conference on Audio and Video-Based Biometric Person Authentication, 1999.
- AVletters
- HP: ???
- Group: イースト・アングリア大学(University of East Anglia) (USA), マンチェスター大学(University of Manchester) (UK)
- Released: 2002
- Language: English
- Contents: アルファベット26字
- File format: ???
- Image size: 376 x 288 [pixels], mouth image: 80 x 60 [pixels]
- Frame rate: 25 fps
- Speakers: 10名(5M+5F)
- Reference:
I. Matthews, T.Cootes, J. Bangham, S. Cox, and R. Harvey,
Extraction of visual features for lipreading,
IEEE Trans. on Pattern Analysis and Machine Vision, vol.24, no.2, pp.198-213, 2002.
- CUAVE(Clemson University Audio-Visual Experiments)
- HP: ???
- Group: クレムゾン大学(Clemson University) (USA)
- Released: 2002
- Language: English
- Contents: digits ("zero", "one", "two", "three", "four", "five", "six", "seven", "eight", "nine")
section 1:1名ずつの発話
part 顔方向 静動 発話内容 サンプル数 1 正面 静止 "zero", "one", … , "nine" 5 2 正面 運動 "nine", "eight", … , "zero" 3 3 右向き 静止 "zero", "one", … , "nine" 1 4 左向き 静止 "zero", "one", … , "nine" 1 5 正面 静止 連続10数字(電話番号のような数字) 3 6 正面 運動 連続10数字(電話番号のような数字) 3
part 顔方向 静動 発話内容 サンプル数 1 正面 静止 連続10数字(電話番号のような数字) 4 2 正面 静止 連続10数字(電話番号のような数字)、2名同時 1 - File format: ???
- Image size: 720 x 480 [pixels]
- Frame rate: 29.97 fps
- Speakers: 36名(19M+17F)
- Reference:
Eric K. Patterson, Sabri Gurbuz, Zekeriya Tufekci, and John N. Gowdy,
Moving-Talker, Speaker-Independent Feature Study, and Baseline Results Using the CUAVE Multimodal Speech Corpus,
EURASIP Journal on Applied Signal Processing,
Volume 2002, Issue 11, pp.1189-1201, 2002, doi:10.1155/S1110865702206101.
- GRID
- HP: ❐ web(HPからダウンロード(無償))
- Group: シェフィールド大学(University of Sheffield) (UK)
- Released: 2006
- Language: English
- Contents: 6 components = (command, color, preposition, letter, digit, adverb)
- 4 commands={"bin", "lay", "place", "set"}
- 4 colors={"blue", "green", "red", "white"}
- 4 prepositions={"at", "by", "in", "with"}
- 25 letters("w"以外)
- 10 digits={"zero"~"nine"}
- 4 adverbs={"again", "now", "please", "soon"}
- File format: mpeg(color)
- Image size: 360 x 288 [pixels], 720 x 576 [pixels]
- Frame rate: 25 fps
- Speakers: 34名(18M+16F)
- Others: オリジナルの音声データ(50kHz)、ダウンサンプリングした音声データ(25kHz)、音声信号の単語発話区間が示されたデータ
- Reference:
M. Cooke, J. Barker, S. Cunningham, and X. Shao,
An audio-visual corpus for speech perception and automatic speech recognition,
Journal of the Acoustical Society of America. Vol.120, No.5, pp.2421-2424, 2006.
- AVletters2
- HP: ???
- Group: マンチェスター大学(University of Manchester) (UK)
- Released: 2008
- Language: English
- Contents: アルファベット26字
- File format: mov
- Image size: 1920 x 1080 [pixels]
- Frame rate: 50 fps
- Speakers: 5名(5M)
- Reference:
S.J. Cox, R. Harvey, Y. Lan, J. Newman, B.J,
Theobald. The challenge of multispeaker lip-reading,
International Conference on Auditory-visual Speech Processing (AVSP2008), p179-184, 2008.
- OuluVS
- HP: ❐ web(メールで問い合わせ)
- Group: オウル大学(University of Oulu) (Finland)
- Released: 2009
- Language: English
- Contents: 10文
- "Hello"
- "Excuse me"
- "I am sorry"
- "Thank you"
- "Good bye"
- "See you"
- "Nice to meet you"
- "You are welcome"
- "How are you"
- "Have a good time"
- File format: ???
- Image size: 720 x 576 [pixels]
- Frame rate: 25 fps
- Speakers: 20名(17M+3F)
- Reference:
G. Zhao, M. Barnard, and M. Pietikainen,
Lipreading with local spatiotemporal descriptors,
IEEE Transactions on Multimedia, Vol.11, No.7, pp.1254-1265, 2009.
- OuluVS2
- HP: ???
- Group: オウル大学(University of Oulu) (Finland)
- Released: 2015
- Language: English
- Contents: 3種
- Phase 1:10桁の連続数字の発話シーン
- Phase 2:10文の発話シーン
- Phase 3:TIMITデータベースに含まれている文章からランダムに選ばれた10文の発話シーン
- File format: ???
- Image size: 1920 x 1080 [pixels], 640 x 480 [pixels]
- Frame rate: 30 fps, 100 fps
- Speakers: 53名(40M+13F)
- Reference:
I.Anina, Z.Zhou, G.Zhao and M.Pietikainen,
OuluVS2: a multi-view audiovisual database for non-rigid mouth motion analysis,
IEEE International Conference on Automatic Face and Gesture Recognition, 2015
- LRW (The Oxford-BBC Lip Reading in the Wild)
- HP: ❐ web(メールで問い合わせ(無償))
- Group: Oxford University (UK)
- Released: 2016
- Language: 英語
- Contents: 500単語
- File format: mp4
- Image size: 256 x 256 [pixels]
- Frame rate: 25 fps
- Speakers: 1,000名以上
- Scenes: 538,766 = (train) 488,766 + (val) 25,000 + (test) 25,000
- Reference:
- LRS2 (The Oxford-BBC Lip Reading Sentences 2)
- HP: ❐ web(メールで問い合わせ(無償))
- Group: Oxford University (UK)
- Released: 2017
- Language: 英語
- Contents: 文章
- File format: mp4
- Image size: 160 x 160 [pixels]
- Frame rate: 25 fps
- Speakers: 1,000名以上
- Scenes: 118,948 = (pretrain) 70,783 + (main) 48,165
- Reference:
- LRS3 (Lip Reading Sentences 3)
- HP: ❐ web(メールで問い合わせ(無償))
- Group: Oxford University (UK)
- Released: 2018
- Language: 英語
- Contents: 文章
- File format: mp4
- Image size: 224 x 224 [pixels]
- Frame rate: 25 fps
- Speakers: 1,000名以上
- Scenes: 151,819 = (pretrain) 118,516 + (trainval) 31,982 + (test) 1,321
- Reference:
- LRW-1000 (CAS-VSR-W1k)
- HP: ❐ web(メールで問い合わせ)
- Group: 中科院计算所(中国)
- Released: 2018
- Language: 中国語
- Contents: 1000語
- File format:
- Image size: 256 x 256 [pixels]
- Frame rate: 25 fps
- Speakers: 2,000名以上
- Videos: 840
- Reference:
Shuang Yang, Yuanhang Zhang, Dalu Feng, Mingmin Yang, Chenhao Wang, Jingyun Xiao, Keyu Long, Shiguang Shan, Xilin Chen,
LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild,
IEEE International Conference on Automatic Face and Gesture Recognition, 2019
- M2TINIT(Multi-Modal Speech Database by Tokyo Institute of Technology and Nagoya Institute of Technology)
- HP: ❐ web(メールで問い合わせ(60GB以上のHDD、無償))
- Group: 東京工業 大学大学院院総合理工学研究科 小林隆夫研究室、名古屋工業 大学知能情報システム学科 北村・徳田研究室
- Released: 2002
- Language: 日本語
- Contents: ATR音素バランス文503文
- File format: ???
- Image size: 720 x 480 [pixels]
- Frame rate: 29.97 fps
- Speakers: 1名(1M)
- Reference:
酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正,
HMMに基づいた視聴覚テキスト音声合成―画像ベースアプローチ,
情報処理学会論文誌, vol.43, no.7, pp.2169-2176, 2002.
- CENSREC-1-AVマルチモーダル音声認識評価環境データベース
- HP: ❐ web(メールで問い合わせ(無償))
- Group: 情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ
- Released: 2010
- Language: 日本語
- Contents: 連続数字1~7桁の読み上げ
- File format: カラー画像:bmp(24bit)、近赤外線画像:bmp(8bit)
- Image size: 81 x 55 [pixels]
- Frame rate: ??? fps
- Speakers: 42名(22M+20F)、51名(25M+26F)
- Reference:
大西正真, 田村哲嗣, 速水悟,
音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応,
電子情報通信学会 技術研究報告,
vol.111, no.97, SP2011-33, pp.17-22, June 2011.
- SSSD スマートデバイスを用いた発話シーンデータベース
- HP: ❐ web(メールで問い合わせ(無償))
- Group: 九州工業大学 齊藤剛史研究室
- Released: 2018
- Language: 日本語
- Contents: 25単語
- File format: カラー画像
- Image size: 300 x 300 [pixels]
- Frame rate: 30 fps
- Speakers: 72名(38M+34F)
- Reference:
Takeshi Saitoh, Michiko Kubokawa,
SSSD: Speech Scene Database by Smart Device for Visual Speech Recognition,
ICPR2018,
pp.3228-3232.
- ITAコーパス マルチモーダルデータベース
- HP: ❐ web(無償)
- Group: 九州工業大学 齊藤剛史研究室、明治大学森勢研究室、SSS合同会社
- Released: 2021
- Language: 日本語
- Contents: 424文(感情100文+朗読324文)
- File format: カラー画像
- Image size: 300 x 300 [pixels]
- Frame rate: 30 fps
- Speakers: 4名(4F)
- ROHAN4600マルチモーダルデータベース
- HP: ❐ web(無償)
- Group: 九州工業大学 齊藤剛史研究室、明治大学森勢研究室、SSS合同会社
- Released: 2022
- Language: 日本語
- Contents: 4600文
- File format: カラー画像
- Image size: 300 x 300 [pixels]
- Frame rate: 30 fps
- Speakers: 1名(1F)