E'GA研究室の取り組みについて

 E'GA研究室では現在、中日・日中対訳文のデータ化(Excelへの入力)作業を進めています。

 当研究室の専門分野は日中同形語ですが、特に「同義」とされてきた同形語、いわゆる「同形同義」の語を研究対象としています。同形語は言語使用の中で同じ意味だと思われがちですが、実際には微妙な意味のズレが潜んでいるケースが少なくありません。当研究室では、こうした主観的な判断では捉えにくい「グレーゾーン現象」に注目し、研究を進めています。

 プロの翻訳者が訳した文と、AI(機械翻訳)による文を比較すると、どちらも(特に同形類義語において)起点言語の影響を強く受ける傾向が見られます。翻訳の精度を向上させるためには、この「グレーゾーン現象」の解明が重要な鍵となるのではないでしょうか。

研究への想い

不明確な事柄や未解明の謎を、世間の通説に流されることなく、確かな根拠をもとに考察を深めていく——この過程には大きな魅力があります。ひとつの手がかりを見つけたときの達成感は格別です。

女性として家庭と仕事を両立するのは決して簡単ではありませんが、言語の奥に潜む「何か」を明らかにすることは、私にとって趣味であり、やりがいのある仕事でもあります。何かを極める道のりには困難がつきものですが、周囲への忖度にとらわれることなく、自分の目指すことをとことん追求していきたいと思っています。

「文章を科学する」ために

 さて、本題に入りますが、近年、『文章を科学する』(李在鎬 編, 2017)という表現に大変共感しています。「文章を科学する」ためには、謎を解く準備段階と手順をしっかり整えることが重要です。すなわち、適切な言語資源を確保し、それに基づいた計量的分析を正確に行うということです。

 宮島達夫(1986, p.57)の言葉に「意味の記述は、現象における量的な違いを説明できなければ、不完全である」というものがあります。この教えをモットーに、私も自負を持って研究に取り組んでいます。

 これまでの日中対訳コーパスは、高度なシステム(アライメントなど)の構築が求められていましたが、近年はExcelを用いたシンプルなデザインが却って役立つ場合もあります(例:KH Coderを活用したテキストマイニング)。しかし、現状では利用可能な対訳コーパスは限られており、扱われているデータの多くが50年前の作品をベースにしているのが現状です。特に中国語を起点言語とする文章にはジャンルの偏りがあり、現代の言語使用全般を反映しているとは言い難い状況です。

 適切な言語資源が確保できなければ、「文章を科学する」ことは到底不可能です。

「この世にないものは、自分で作るしかない!」

 その信念のもと、E'GA研究室では現在、対訳文のデータ化作業をスタッフ総動員で進めています。

 

共同研究のご案内

 本プロジェクトでは、近い将来、多くの研究者に向けて「日中対訳コーパス」を公開することを目指しています。

 また、2024年4月以降、日中対訳コーパスを活用した共同研究を募集しております。共同研究では、著作権の関係で未公開のデータも含めた分析が可能です。ご興味のある方は、お気軽にお問い合わせください。

 言語研究における多言語資源の充実化に向け、今後の進展を温かく見守っていただければ幸いです。

                                         語学Lab E'GA
e-Rad研究機関名:一般社団法人E’GA
代表理事:宮本華瑠
研究者番号:90985524
researchmap

 

公開済コーパス情報

一般社団法人E'GA「日中対訳EGAコーパスVer.1」(2023年12月10日)

 

「日中対訳EGAコーパスVer.1」利用申請フォームはこちら

 

 

「日中対訳EGAコーパスVer.1」のデータについて

 「日中対訳EGAコーパス Ver.1」について

 「日中対訳EGAコーパス Ver.1」には、2014年7月15日から2023年8月31日までにWebで公開された「人民網」(http://j.people.com.cn/95961/index.html)の日本語訳付きニュース記事(約270万字)が含まれています。

 

 本データは、著作権法第三十条の四(「著作物に表現された思想又は感情を、自ら享受し、または他人に享受させることを目的としない」利用)に基づき構成されており、言語情報の抽出・比較・分類・解析などの科学的研究を目的としています。

 

データの特徴
対訳文の単位について
本データは、言語解析の可能性を最大限にするため、「句」や「文」単位ではなく「段落」単位で対訳を構成しています。

 

データのシャッフル処理について
一方で、段落の順序は無作為にシャッフルされており、文章全体や段落間の連続性は保持されていません。

 

通時的研究に関する注意点
通時的研究を行う際、元のニュース記事には年月日・時刻が記載されていますが、本データでは段落の復元を防ぐため、「〇年〇月」のみの記載としていますので、あらかじめご了承ください。

 

利用範囲と留意点
国内外での利用を想定
「Ver.1」は、日本国内のみならず海外の研究者にも利用可能なデータです。そのため、著作権法上の権利制限を考慮し、Webで公開された内容のみで構成されています。

 

文体的な偏りについて
「Ver.1」はニュース記事を主なデータソースとしているため、分析の際、文体的な特徴に一定の偏りがある可能性があります。ご利用の際は、この点を考慮してください。

 

 

日中対訳EGAコーパスVer.1 データ量(単位:文字数)

年度総字数対訳文(対)中国語字数中国語平均文長日本語字数日本語平均文長
2014年(6ヵ月)226,17596192,44096.2133,735139.2
2015年450,5362,115187,52688.7263,010124.4
2016年392,3391,843161,21587.5231,124125.4
2017年446,4792,062180,47887.5266,001129.0
2018年454,5382,070182,08288.0272,456131.6
2019年255,0661,190102,73686.3152,330128.0
2020年184,71888274,24384.2110,475125.3
2021年152,82673260,46882.692,358126.2
2022年134,87267953,57078.981,302119.7
2023年(8ヶ月)32,06916512,59876.419,471118.0
統合2,729,61812,6991,107,35685.41,622,262126.4