現代アメリカ英語のコーパス

American National Corpusの多様な形

American National Corpusのプロジェクトは現在も進行中ですが、15 million words が Open American National Corpus として公開されています。もう一つよく使用されているのが、サブコーパスの MASC (Manually Annotated Sub-Corpus) で、約50万語。クリエイティブコモンズでの公開で、ダウンロード可能です。

Santa Barabara Corpus of Spoken American English

Santa Barbara Corpus of Spoken American English (University of California, Santa Barabara) は、249,000語からなる現代アメリカ英語の会話コーパス。語数は多いとは言えませんが、各種コーパスがたくさん編纂されるようになってきた今日でも、会話のコーパスは貴重です。プロジェクトのサイトからダウンロード可能です。