Oxford NINJAL Corpus of Old Japanese (ONCOJ)

プロジェクトについて

概要

オックスフォード・NINJAL 上代語コーパスは長期にわたる研究プロジェクトで、もっぱら飛鳥・奈良時代の上代日本語のテキストを対象に形態素解析、見出し語番号、統語構造などの情報を付与したコーパスを開発している。現在公開してるバージョンでは、萬葉集をはじめ、上代日本語の歌謡テキストをすべて収録している。その当時の散文資料である延喜式祝詞や続日本記宣命の収録も準備中である。データを直接操作できる形で、専門家、学生や一般の方々に日本文化の最古のテキストを提供するのがこのプロジェクトの抱負である。 現在のこのバージョンでは、原文に合わせて、その読み下しのローマ字化、表記法(表音的か表語的か)についての情報、細かい形態素解析と統語論の分析を含むアノテーションを直接構成素ツリーの形で表示する。各語に見出し語番号も施し、簡単な辞書と関係付けている。

このプロジェクトの長期的目標として以下のものがある: アノテーション: 文学、歴史、人物などについての情報付与 翻訳: テキストに対応する英訳(可能な場合、既存の出版物からの翻訳、あるいはプロジェクト活動から得られた翻訳) 辞書の充実化: 現在の辞書機能の品詞情報や英訳に加えて、使い方(用例など)、関連項目、その他の細かい情報

プロジェクト体制

このプロジェクトの長期的目標として以下のものがある: アノテーション: 文学、歴史、人物などについての情報付与 翻訳: テキストに対応する英訳(可能な場合、既存の出版物からの翻訳、あるいはプロジェクト活動から得られた翻訳) 辞書の充実化: 現在の辞書機能の品詞情報や英訳に加えて、使い方(用例など)、関連項目、その他の細かい情報

プロジェクト体制

以下の構成のプロジェクト委員会が ONCOJ を監督している。

プロジェクトの構造

ONCOJ のプロジェクト委員会は次の通り。

プロジェクト監督

フレレスビッグ ビャーケ(オックスフォード大学)

委員

バトラー アラステアー(弘前大学)

ホーン スティーブン・ライト

小木曽 智信 (国立国語研究所)

セルズ ピーター (ヨーク大学)

ONCOJ の経歴

本コーパスは2009年〜2014年のオックスフォード大学の研究プロジェクト「近代以前の日本語における動詞意味論と項の具現化」Verb Semantics and Argument Realisation in Pre-Modern Japanese (VSARPJ) の研究ツールとして開発された。 その主任研究員はビャーケ・フレレスビッグ (Bjarke Frellesvig) であり、英国芸術・人文リサーチカウンシルによって資金を得ていた。VSARP プロジェクトの設計と施行はフレレスビッグ、ヤニック・ローナ (Janick Wrona) とピーター・セルズ (Peter Sells) によるものであった。

プロジェクトが始まってからコーパスの設計、アノテーションの分析(フレレスビッグの A history of the Japanese language の音韻論・形態音韻論・形態論の枠組みを採用して)、アノテーションの範囲と詳細度、データの構造やフォーマットなどが決まった。VSARPJ プロジェクトのPD 研究員であったスティーブン・ライト・ホーン (Stephen Wright Horn) とケリー・ラッセル (Kerri Russell) の協力を得ながら、フレレスビッグ、ローナとセルズがコーパス作りに踏み出した。この段階でアントン・アントノフ (Anton Antonov)、金水敏、衣畑智秀、近藤 泰弘、柴谷方良、柳田優子、渡辺明、ジョン・ホイットマン (John Whitman) などのプロジェクト外部研究員からも重要な助言があった。

2011 にこのコーパスが Oxford Corpus of Old Japanese (OCOJ) という独立したプロジェクトとして成立し、2012年には英国アカデミーによりアカデミー研究プロジェクトとして選ばれた。

2009年から2015年までは OCOJ のアノテーションなどのコーパス作りの作業は主にホーンとラッセルによって行われた。コーパスが ONCOJ と改称されてからも作業が進んでおり、改良されているところが多く見られるが、最初の7年間のこの二人の貢献が大きかった。

その間、 Anton Antonov, Yuhki King, Laurence Mann, Maria Telegina, Dan Trott, Zixi You をはじめ、Benjamin Cagan, Arthur Defrance, Alexander Dudok de Wit, Thomas Jo Johansen, Aimi Kuya, Katharine Kinoshita, Linda Lanz, Petter Mæhlum その他、数多くの人が OCOJ のアノテーションに携わった。

OCOJ から ONCOJ へ

VSARPJ と OCOJ の両プロジェクトは、早い段階から NINJAL とその通時コーパス作りのプロジェクトの協力を得ていた。NINJAL のプロジェクトメンバーから近藤 泰弘、小木曽智信と田中牧郎が数回オックスフォードを訪問し、2016年夏に鴻野知暁が OCOJ プロジェクトの外来研究員としてオックスフォードに滞在した。2010〜2011年の間、ホーンとラッセルが英国芸術・人文リサーチカウンシルからグラントを受け、外来研究員としてそれぞれ3ヶ月間 、NINJAL で研究を行った。2012年にフレレスビッグは6ヶ月間 NINJAL で客員教授のポストに就いていた。ホーンは2015〜2016年、博報堂の招聘研究者として NINJAL で研究を行い、2016年10月から2019年1月まで非常勤研究員として NINJAL の 統語・意味解析コーパスの開発と言語研究 プロジェクト(プロジェクトリーダー: プラシャント・パルデシ)に勤めていた.

2016 年に オックスフォード と NINJAL の共同研究プロジェクトとして、OCOJ は 通時コーパスの構築と日本語史研究の新展開 プロジェクト(プロジェクトリーダー:小木曽智信)に編入され、2017年に Oxford-NINJAL Corpus of Old Japanese (ONCOJ) と改称した。

2019年までは小木曽とパルデシの両プロジェクトによる技術的援助を受けてたが、2019年からは小木曽ののプロジェクト、 国立国語研究所の所長裁量経費の助成、そして英国アカデミーの援助を受けながら、本コーパスのさらなる開発やメンテナンス(本ウェブサイトを通しての公開を含める)が進められている。

2016年からアノテーションの作業は主にフレレスビッグ、ホーンとシャルコによって行われているが、バトラーと鴻野による貢献も大きい。

データ形式

OCOJ はもともと XML 形式で作られ、Text Encoding Initiative (TEI) に適合したタグのスキーマを採用した。 2018年2月、 XML データファイルは Penn Historical Treebank の括弧付き形式に変換し、2022年にかけてツリーを(順序つけられた)パスの集合として表示する「表形式」に切り替えた。 現在は ONCOJ のデータをこのカッコつき形式と表形式でのダウンロードが可能である。

公開

OCOJ は全データ公開はなかったものの、文字列検索可能な全テキストの原文と読み下しのローマ字化、見出し語の番号による検索と直接構成素分析を表すツリーの画像の表示を、 OCOJ のウェブサイト(現在停止中)を通して提供していた。 その形式で公開したデータは2015年5月のコーパスの状態を反映しており、それ以来アップデートされておらず、現在の ONCOJ との不一致が多いため、OCOJ のデータを非公開にした。

現在の ONCOJ は、特に見出し語番号の付与や統語解析の側面では、大いに改良された形で本ウェブサイトに公開されている。 すべてのデータがダウンロード可能になり、Creative Commons Attribution 4.0 で配布・使用を許可している。

検索インターフェース

本コーパスは強力な検索インターフェースと結びつき、文字列、ノードのラベルやノード間の構造関係に基づいた検索を可能にする。 たとえば、 kapi という(「貝」、「甲斐」、「飼い」、「谷」などの意味の語に対応する)音声形式を検索できる。 また、形容詞にあたる ADJ などの品詞ノードも検索できる。 名詞句に当たる NP 句のレベルでの検索や、ツリー構造の上での複雑なノード間の関係に基づいた検索もできる。 後者の例として、no の音声形式が万葉仮名で書かれ、繫辞の働きをしている例の検索には以下の検索表現を使う。

no > (/^PHON/ >> /^COP/)

今後

現在の新しい検索インターフェースは強力で将来的にも維持しやすいばかりでなく、同じシステムに基づいたコーパスの数が増えつつある。 すべてのコーパスは次のParsed Corpora Portalからアクセスできる: Main page.