
アザラシがたくさんいると聞いていた研究室へ。「ここにあるのは少しだけです」と小木曽智信さんは言いますが、キャビネットの一角には、ぬいぐるみや置物、マグネット、コインなど、さまざまなアザラシグッズが並んでいます。「昔、テレビでタテゴトアザラシの赤ちゃんを見て、かわいいと思って。コレクションは20年くらい前からです」。壁のボードに目を向けると、さまざまなマグネットが一見雑然と貼られています。「出張や旅行先で手に入れたご当地マグネットを、日本列島の形に並べ始めているのです。集めて整理することが好き。それは研究にもつながっています」
どのような研究を?「奈良時代から明治・大正までの日本語資料を集めて、コンピュータで検索できるようにすべての単語に読みや品詞などの情報を付けた『日本語歴史コーパス』を開発しています。さらに、それを使って千数百年にわたる日本語の変化を研究しています」
小木曽さんは、学生時代から国語研で、明治以降の近代日本語を対象とした『太陽コーパス』の開発を手伝っていました。2006年に国語研の研究員となり、約1億語からなる『現代日本語書き言葉均衡コーパス』の開発に参加。「文を単語に区切って読みや品詞などの情報を付ける形態素解析のための辞書づくりなどを担当しました。一方で、その手法を近代語に適用する研究を個人で進めていました。当時は近代語の形態素解析が難しく、『太陽コーパス』は文字列検索しかできなかったのです。さらに平安時代の日本語にも適用しようとしていました。2009年に国語研が人間文化研究機構の設置する大学共同利用機関となり、歴史研究が研究課題に加わったことから、個人の研究が大規模な『日本語歴史コーパス』の開発へとつながりました。今では、多くの人に使ってもらい、日本語の歴史研究に欠かすことのできない存在になっています。開発には苦労したので、うれしいですね」
高校生のころにはすでに日本語の歴史を研究したいと考えていたそうです。また小学生のころからコンピュータが好きで、プログラミングが趣味だったとのこと。「両方が突出して得意でなくても、好きで、ある程度できることが重なればレアな人材になれる可能性があるものです」。研究室を見回して続けます。「古典資料とコンピュータが同居しているところは珍しく、それも私の研究室の特徴です」

現在、小木曽さんは複数の研究プロジェクトでリーダーを務めています。一つが『日本語歴史コーパス』の拡張です。「日本語の歴史研究に必要な資料はすべて入れたい」と言います。「しかし、時代や資料ごとに専門知識が欠かせず、国語研だけではできません。そこで、外部の人たちに協力してもらうコーパスの新しいつくり方を確立しようとしています」。また、『現代日本語書き言葉均衡コーパス』に1億語を追加する文化庁委託事業の責任者も務めています。まず2,500万語を2026年春に公開予定です。
小木曽さんは「コーパスをつくって終わりではない」と繰り返します。「コーパスを使い倒し、新しいことを導き出したいのです。特に、統計やAIなど発展の著しい自然言語処理の技術を使うことで、見えていなかった日本語の変化やその要因を検出できると期待しています」
歴史コーパスでは時間軸を広げてきましたが、小木曽さんは空間を広げていく方言コーパスの開発にも取り組んでいます。集めて整理する——それは、これからも続きます。
ことばの波止場 Vol.15-2 記事一覧
- 「317カフェ」、議論とコラボレーションを軸とした研究文化
- YouTube 国語研の動画紹介
- エッセイ:kanasmunuiという言葉(下地理則)
- インタビュー:「共有信念」の研究に勇気をもらって(川端良子)
- 書籍紹介
- 研究室訪問:古典資料とコンピュータが同居(小木曽智信)
- 編集後記