現代アメリカ英語のコーパス
American National Corpusの多様な形
American National Corpusのプロジェクトは現在も進行中ですが、15 million words が Open American National Corpus として公開されています。もう一つよく使用されているのが、サブコーパスの MASC (Manually Annotated Sub-Corpus) で、約50万語。クリエイティブコモンズでの公開で、ダウンロード可能です。
Santa Barabara Corpus of Spoken American English
Santa Barbara Corpus of Spoken American English (University of California, Santa Barabara) は、249,000語からなる現代アメリカ英語の会話コーパス。語数は多いとは言えませんが、各種コーパスがたくさん編纂されるようになってきた今日でも、会話のコーパスは貴重です。プロジェクトのサイトからダウンロード可能です。