英語史関係のコーパス

Penn Parsed Corpora of Historical English

Penn Parsed Corpora of Historical Englishは、annotationがついているので、文法の分析等に利用しやすいこともあり、しばしば論文の中で言及されているコーパスで。時代のことなる3つのコーパスから構成されており、それぞれ

  • the Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2)
  • the Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME)
  • the Penn Parsed Corpus of Modern British English, second edition (PPCMBE2)

となっています。一般論としてannotationには問題があることも多いので、個人的には文字列ベースで検索する方法をお勧めすることが多いのですが、Penn Parsed Corpora of Historical Englishは広く研究者の間で使用され、ある程度確立したコーパスなので、ここに挙げておきたいと思います。ホームページ情報も充実しています。また同じプロジェクトの中で時代を横断する形で複数のコーパスがリリースされているのも利点だと思います。