Oxford Text Archive

現在、第3世代コーパスの時代を迎え、言語研究に使用するコーパスはますます多様化している。第2世代までのように、複数の決まったコーパスに研究が集中する傾向はなくなり、それぞれの研究目的に合わせて自由に電子テキストを組み合わせる時代が到来し、その研究のあり方が確立してきたと感じる。

このような研究動向の中で、再度光を当ててみたいと思うのが、Oxford Text Archive (OTA) である。すでに私が学生のときからOxford大学関係者が、各地でシンポジウムを開催して、その存在を広めていたのを思い出す。このたびホームページを見てみると、発足は1976年ということであるから、パーソナルコンピューターが全く普及していなかった時代である。

テキストの入力は基本的に手入力、という今からは想像しにくい時代のことである。ハードディスクの容量も小さく、コンピューターの処理にも今では考えられないほどの時間がかかった。OTAのサイトの情報によれば、OTAを立ち上げたのはLou BurnardとSusan Hockeyという二人の研究者とのことである。

ところが、1976年に発足したOTAは現在でも健全で、時代の蓄積により大きなデータベースに成長している。研究者が第1世代コーパス、第2世代コーパスに専念している間にも、着々と成長した。この分野において、以下に蓄積がものを言うかを実感するデータベースである。そして今、OTAが再評価される時代が来たようである。

なおOTAについては、拙書『文献学と英語史研究』(家入葉子・堀田隆一(著)、開拓社、2023年)でも以下のように紹介しています。

「今から40年以上も昔のことでありながら、OTAの考え方は振り返ってみると、ある意味で現在の第3世代コーパスの考え方に近いことがわかる。実際、世界各地で大小様々なコーパスが公開されるようになった現在でもOTAはその価値を失うことなく、むしろ長年にわたる継続的な蓄積の効果と近年になって広がってきた第3世代の考え方を追い風に、その価値は急速に高まりをみせている。現在では、先に述べたHelsinki CorpusやCEECSなど、コーパスの形式をもつ電子テキストが、その本体ごとOTAに預けられ、研究者が各種コーパスを含む電子データをやり取りする仲介サイトとしての役割を果たしている。」(第2章3.3より)

OTAの詳細については、https://ota.ox.ac.uk/about/faq.xml を参照。