話し言葉コーパス

EuroCoAT (the European Corpus of Academic Talk)

EuroCoAT (the European Corpus of Academic Talk)は、ヨーロッパの大学で収集したオフィスアワーでの会話をコーパスとして編纂した話し言葉コーパスです。総語数は58,834語のコーパスで、PDF、XML、txt形式のファイルで入手可能。アカデミックな会話に特化した、かなり特殊なコーパスになります。プロジェクトのホームページは、こちらになります。参加しているのは、Universidad de Extremadura, University of Amsterdam, Dalarna University, University of Birmingham, University of Limerickの5大学。

The Corpus of Australian and New Zealand Spoken English

The Corpus of Australian and New Zealand Spoken English (CoANZSE) は、オーストラリア英語とニュージーランド英語のコーパスで、version 1の語数は1億9600万語。YouTubeの自動書き起こしをもとに作成された話し言葉コーパスです。プロジェクト全体については、こちらをご覧ください。