中英語のコーパス

Middle English Grammar Corpus (MEG-C)

後期中英語以降は、Early English Books Onlineがあるので、膨大な電子データへのアクセスが可能になっています。またそれ以前についても、校訂版を電子化した資料は膨大ですので、近年の中英語研究は、基本的に電子テキストの存在が前提となってきていると感じます。

一方で、写本時代の言語研究には写本に特有の情報も不可欠だと感じることがあります。写本をできるだけ保持したまま電子テキストのメリットも活かしたいとなると、コーパスの数がまだまだ限られていると感じることも少なくありません。

初期中英語については、LAEME (A Linguistic Atlas of Early Middle English) を作成する目的で構築されたコーパスがLAEMEのプロジェクトサイトからダウンロード可能です。後期中英語については、LAEMEに先行するLALME (Linguistic Atlas of Late Mediaeval English) のテキストを部分的にコーパスとして提供するプロジェクトがあり、Middle English Grammar Corpus (MEG-C)を使用することができます。

MEG-Cは1325年から1500年のテキストのサンプル(3000語)を写本から直接書き起こした電子テキストから構成されていて、現在410のテキスト、総語数664,514語となっています。プロジェクトのサイトの情報では、

“The corpus contains samples from nearly half the texts mapped in the Linguistic Atlas of Late Mediaeval English (LALME). All the texts were localized on linguistic grounds in LALME, and users interested in geographical patterns may like to combine the use of both resources.”

となっています。

Glasgow大学とStavanger大学の共同で進められたプロジェクトですが、プロジェクト自体は終了し、コーパスは当面は公開を継続するとのことです。詳細は、プロジェクトのページをご覧ください。コーパスへの直接リンクは、こちら。(2024年)