フロント・ページ

オックスフォード・NINJAL上代語コーパス

オックスフォード・NINJAL上代語コーパス(ONCOJ) はオックスフォード大学と国立国語研究所 (NINJAL) との長期の共同研究プロジェクトで、上代日本語のテキストを対象に包括的な形態・統語解析アノテーションを付与したコーパスを開発している。 ONCOJ は アカデミー研究プロジェクト (Academy Research Project) として英国アカデミーから支援を受けながら、NINJAL においては 通時コーパスの構築と日本語史研究の新展開という大規模の共同研究プロジェクトの一貫として進められている。

上代語とは文献が残っている日本語の実例として最古のものであり、飛鳥時代から奈良時代(7〜8世紀)にわたって使用されていた。その当時の文化は現代日本文化の拠り所であり、上代日本語のテキストは言語、文学、歴史の発展を理解するには重要な資料になる。

ONCOJ は2011年から2017年まで “The Oxford Corpus of Old Japanese (OCOJ)”という名のもとで構築が進められた。当初は言語学の研究ツールとして設計されたが、歴史、文学、文化などに研究に役立つ要素をも取り入れている。現在の形では、 ONCOJ は萬葉集を始め、上代日本語の歌謡テキストのすべてを収録している。

コーパスの公開、特徴、不備について

2018年9月のバージョン (Version 2018.9) に代わり、現在のこのウェブサイトは ONCOJ の3度目の公開 (Version 2020.1) にあたる。 改定したデータとともに様々な検索機能を含み、アノテーションのあらゆる要素にもとづいて検索ができ、アノテーションごとの検索結果のみならず、データベースの元となる情報のすべてをダウンロードするためのインターフェースも付いている。現在公開しているのは2020年1月31日時点のデータで、凡そ9万語の歌謡のテキストが収録されている。99,828個の語彙的内容の形態素が、単語または複合語の形で 15,635 個の束縛形態素と組み合わさって、このコーパスを構成している。データは見出し語同定、品詞同定と活用同定が処理済みであり、表記法が表音的か表語的かも分析され、これらに加えて文法の句構造や構成素の文法役割の情報も含まれている。

OJ テキストのページから、各テキストの原文とローマ字の読み下しが並列した形でコーパス全文にアクセスできる。行ごとにそのテキストの直接構成素分析の樹形図へのリンクが付いている。この分析表示は検索インターフェースの環境内のページであり、そこから様々な検索ツールにアクセスできる。メニューからも検索インターフェース にアクセスできるが、一旦この環境に入ると、検索方法、検索結果の表示、データのダウンロードなどのオプションが色々ある。その一つとして上代日本語の和英 辞書 があり、見出し語の ID 番号、品詞、英訳などが見られる。ONCOJ のテキストとNINJAL の日本語歴史コーパスの奈良時代編 のテキストが対応している場合には、ONCOJ の分析表示のページにそのリンクが付いている。メニューから 単語リスト へナビゲートすると、コーパスの語彙(自由形態素も束縛形態素も含めて)がアルファベット順で列挙され、各見出し語に英訳と検索インターフェースの辞書へのリンクが付いている。メニューからダウンロード のページに行きデータ形式を選択すると、コーパスのデータをまるごとダウンロードできる。

コーパスというのは、アノテーションが完璧なものはおそらく存在しないので、現在公開中の ONCOJ にも不備なところがあることはいうまでもないであろう。分析がまだ至っていないところ、分析自体を改良する余地が残っているところについては、作業が進行中であるので、これからも出来る限り直していく方針である。これにあたってコーパスの使用者からご指摘をいただけるとありがたい(連絡先)。原文やその読み下しだけではなく、見出し語の同定、表記法の分類化、形態素解析や統語分析というアノテーションのレベルにも、辞書の英訳にも、問題が残っている。現在の公開では、特にナ行とハ行の語の分析において手作業の見出し語の同定がまだ終わっていないので、ご注意ください。

データの訂正・改良・形式や使用者のための機能を増加し、このウェブサイトを定期的に更新する方針である:アップデート 。具体的な改良・拡大については 計画・抱負 をご覧ください。

上代日本語の収録作品

ONCOJ 上代語が含まれる作品の校訂版をデータの拠り所とし、その読み下しや意味解釈を参考にローマ字化、形態素解析、統語的構造分析などを行う。校異のある場合は主に岩波書店の『日本古典文学大系』に従う。以下の表で上代日本語の歌謡のデータの出典となる作品の題名とそれに対応するコーパスの省略:『萬葉集』 (MYS) など。

  • 古事記歌謡 (KK); 112 歌; 2,527 語; 712 年成立
  • 日本書紀歌謡 (NSK); 133 歌; 2444 語; 720 年成立
  • 風土記歌謡 (FK); 20 歌; 271 語; 730年代成立
  • 仏足石歌 (BS); 21 歌; 337 語; 753 年以降成立
  • 萬葉集 (MYS); 4,685 歌; 83,706 語; 759 年以降成立
  • 続日本紀歌謡 (SNK); 8 歌; 134 語; 797 年成立
  • 上宮聖徳法王帝説 (JSHT); 4 歌; 60 語; 成立年不明

データの形式

本コーパスの原文は漢字で書かれ、表語的と表音的両方の表記法が使われた。そういったテキストの読み下しをローマ字化し、アノテーションとして形態論・語彙論・統語論の3つのレベルの情報を付与する。

ローマ字化

その読み下しをローマ字化し、アノテーションとして形態論・語彙論・統語論の3つのレベルの情報を付与し、原文と関係づける。ローマ字化原文の読み下しをローマ字化した形で本コーパスのテキストを表示するには Frellesvig-Whitman 式の綴り方を使用している。以下の表で上代特殊仮名遣いの甲類と乙類との区別の表し方(大野晋による『岩波古語辞典』の綴りや Samuel E. Martin の The Japanese language through time で使用される Yale 式綴り方など)を対比する。

音節のタイプ 添字表記法 大野 Modified
Mathias-
Miller
Yale Frellesvig
& Whitman
甲類 Ci1 Ci Cyi Ci
乙類 Ci2 Ciy Cwi
無区別 Ci Ci Ci Ci Ci
甲類 Ce1 Ce Cye Cye
乙類 Ce2 Cey Ce
無区別 Ce Ce Ce Ce Ce
甲類 Co1 Co Cwo Cwo
乙類 Co2 Co Co
無区別 Co Co Co Co Co

次の表ではいくつかの上代日本語の語に対するそれぞれの綴り方を対比する。参考のために、各語に対応する現代日本語も示す。

単語 現代日本語(NJ) Frellesvig & Whitman 添字表記法 Yale Modified Mathias-Miller 大野
hi pi pi1 pyi pi
hi pwi pi2 piy
chi ti ti ti ti ti
me mye me1 mye me
me me me2 mey
te te te te te te
ko kwo ko1 kwo ko
ko ko ko2 ko
ho po po po po po

表記法

上代日本語の表記法は2種類に大別できる:漢字の音を借りて上代語の音節を表す表音的な表記法と、漢字でもって上代語の語や形態素を表す表語的な表記法。このコーパスの OJ テキスト のページにおいては表音的な表記法で書かれたテキストは斜体 (italics) で表示され、表語的な表記法で書かれたテキストはプレーンのローマ字 (plain) で表示される。文字で表されていないテキスト(添字ー機能語が多い)は下線部 (underlined) となっている。

青根ヶ峰、大峰山脈、奈良県吉野郡吉野町

三芳野之
miyosinwo no
青根我峯之
awone ga take no
蘿席
kokemusiro
誰将織
tare ka orikyemu
經緯無二
tatenuki nasi ni

「み吉野の / 青根が峰の / 苔むしろは / 誰が織ったのであろう。 / 縦糸も横糸もないのに。」 (MYS.7.1120)

形態素解析

ONCOJ の形態素解析は A history of the Japanese language (Bjarke Frellesvig, Cambridge University Press, 2010) の分析を用いる。伝統的な国語学とは相違点がいくつかある。屈折語に関しては、伝統的な国語学の「活用形(未然形、連用形、已然形など)+接続助詞(「ば、ど、な、て」など)」と分析するところを、ONCOJ では各々の組み合わせを一つの屈折した形式として扱う。例えば「開くれど」を「開く」の已然形+逆説の接続助詞「ど」 ではなく、その全体を「開く」の concessive の屈折形と分析する。

もうひとつの特徴として、助詞(所有格の「が」、取り立て助詞(「は」など)モダリティーの助動詞(推定の「らし」など)、コピュラ(断定助動詞)は接辞ではなく、単語として扱われている。

構成素のツリー構造

テキストの中では語は構成素という単位を成し、他の単語と組み合わさると、より大きな構成素(句や節)を作り、最終的には文を形成する。検索インターフェースでは、こういった組織化した単位の連なりは樹形図(ツリー構造)の形で表示される。

ツリーではテキストが終末ノード(文字列)に分けられる。多くの場合、文字列と文字列との境目は形態素の境界線にあたるが、一つの形態素の中でに2つ以上の表記法が用いられると、さらに細かく分けられる。ONCOJ においてすべての文字列がその表記法を指定するラベル(ノード)の真下にある:PHON (表音的表記), LOG (表語的表記), NLOG (添字)。このように、一つの語は二つ以上の形態素によって形成されたりするが、原文の表記法によって、一つの形態素が2つ以上の文字列から形成されたりもする。

形態素の品詞ノード(例えば、PFX = prefix [接頭辞]、 N = noun [名詞]、 P = particle [助詞]、 VB = verb [動詞]、 ADJ = adjective [形容詞] など)は文字列の表記法を示すノードの真上に置かれ、それらを直接支配する 。品詞ラベルの下半分はその形態素の見出し語番号となる(例えば、#L000503 は格助詞 ga の品詞ラベル P-CASE-GEN の下半分にある。

品詞ノードは自由形態素または束縛形態素を支配し、これらが組み合わさって合成語を形成する場合、その全体の真上にさらなる品詞ノードが置かれる。語を直接支配するノードは句ノード[例えば NP = noun phrase [名詞句]、 PP = particle phrase [助詞句]、 IP = inflectional phrase [節]、 CP = complementizer phrase [補文]など)。 文法的機能を示すためにノードのラベルに拡張が付く場合がある(例えば、 NP-OB1 = direct object noun phrase [目的語の名詞句]、 PP-SBJ = subject particle phrase [主語の助詞句]、 IP-ADV = adverbial inflectional phrase [副詞節]など)。ツリーに於いては節の構造は平らであり、「動詞句」や「機能の投射」などを設けないので、局所依存や副詞依存関係は主要部との姉妹関係にあたる。 この捉え方は Penn Parsed Corpora of Historical English に習ったものであり、現代日本語を対象にした実例については Keyaki Treebank (Butler, et al. 2017) を参照してください。

先端研究のための使用について

本コーパスのオンラインの検索インナーフェースでは、文字列検索や複数の構成素の間の構造上の関係に基づいたツリー検索を提供している。検索インナーフェースの機能についての詳しいドキュメンテーションは英語版と日本語版二ヶ国語で備えられている。検索結果をダウンロードする機能もある。この意味では検索インタフェースは色々の研究に役立つ強力なツールであるといえよう。しかし本コーパスを活かせるには TGrep (Pito 1994)、TGrep2 (Rohde 2005)、Tregex (Levy and Andrew-2006)、CorpusSearch2 (Randall, Taylor and Kroch)、TSurgeon (Levy) などのツールが最適であり、そのためにデータをまるごと ダウンロード し、オフラインでの使用を勧める。

ご利用にあたって

この作品はクリエイティブ・コモンズ・ライセンスの下でライセンスされている: Creative Commons Attribution 4.0 International License.

Creative Commons License

『オックスフォード・NINJAL 上代ごコーパス』を利用した研究成果を発表される際は、必ず下記の情報を明記して下さい。(バージョンやアクセス年月日は適宜置き換えて下さい。)

国立国語研究所 (2018) 『オックスフォード・NINJAL 上代ごコーパス』 (Version 2020.1) https://oncoj.ninjal.ac.jp/ (2020年1月31日確認)

fsa