英語史関係のやや特殊なコーパスとデータベース

コーパス言語学の可能性がどんどん広がっています。誰もが使用する大規模コーパスを見ることでわかることも多い一方、個性のある特殊なコーパスの利用もコトバの面白さを感じるきっかけになることがあります。

英語史研究関係で利用できるコーパスのいくつかを紹介してみます。

Early Print Lab

Early Print Labは、1700年までのprinted documentsを集積したデータベースです。大きな機能として、Catalog Search, Corpus Search, Discovery Engine(類似のテキストを検索), Download Texts and Metadata があります。1.65 billion wordsということですので、かなり大きなデータベースです。

The Royal Society Corpus (RSC) 6.0 Open

The Royal Society Corpus (RSC) は、Philosophical Transactions of the Royal Society(1665年にHenry Oldenburg(Royal Societyの最初のセクレタリ)が創刊)をデータ化したしたコーパスです。最初期の科学英語のデータにアクセスできます。ダウンロードフォルダ版、ウェブ上で検索できるバージョンなど、いろいろ試してみてください。

The Salamanca Corpus: Digital Archive of English Dialect Texts

The Salamanca Corpus: Digital Archive of English Dialect Textsは、英語の方言に焦点を当てた史的コーパスで、継続的な更新により、データベースとしての価値も高まってきています。プロジェクトの立ち上げのときのサイトからURLが引っ越ししていますので、ご注意ください。

前の記事

保護中: 古英語の翻訳