E'GA研究室では現在、中日・日中対訳文のデータ化(Excelへの入力)作業を進めています。
当研究室の専門分野は日中同形語ですが、特に「同義」とされてきた同形語、いわゆる「同形同義」の語を研究対象としています。同形語は言語使用の中で同じ意味だと思われがちですが、実際には微妙な意味のズレが潜んでいるケースが少なくありません。当研究室では、こうした主観的な判断では捉えにくい「グレーゾーン現象」に注目し、研究を進めています。
プロの翻訳者が訳した文と、AI(機械翻訳)による文を比較すると、どちらも(特に同形類義語において)起点言語の影響を強く受ける傾向が見られます。翻訳の精度を向上させるためには、この「グレーゾーン現象」の解明が重要な鍵となるのではないでしょうか。
研究への想い
不明確な事柄や未解明の謎を、世間の通説に流されることなく、確かな根拠をもとに考察を深めていく——この過程には大きな魅力があります。ひとつの手がかりを見つけたときの達成感は格別です。
女性として家庭と仕事を両立するのは決して簡単ではありませんが、言語の奥に潜む「何か」を明らかにすることは、私にとって趣味であり、やりがいのある仕事でもあります。何かを極める道のりには困難がつきものですが、周囲への忖度にとらわれることなく、自分の目指すことをとことん追求していきたいと思っています。
「文章を科学する」ために
さて、本題に入りますが、近年、『文章を科学する』(李在鎬 編, 2017)という表現に大変共感しています。「文章を科学する」ためには、謎を解く準備段階と手順をしっかり整えることが重要です。すなわち、適切な言語資源を確保し、それに基づいた計量的分析を正確に行うということです。
宮島達夫(1986, p.57)の言葉に「意味の記述は、現象における量的な違いを説明できなければ、不完全である」というものがあります。この教えをモットーに、私も自負を持って研究に取り組んでいます。
これまでの日中対訳コーパスは、高度なシステム(アライメントなど)の構築が求められていましたが、近年はExcelを用いたシンプルなデザインが却って役立つ場合もあります(例:KH Coderを活用したテキストマイニング)。しかし、現状では利用可能な対訳コーパスは限られており、扱われているデータの多くが50年前の作品をベースにしているのが現状です。特に中国語を起点言語とする文章にはジャンルの偏りがあり、現代の言語使用全般を反映しているとは言い難い状況です。
適切な言語資源が確保できなければ、「文章を科学する」ことは到底不可能です。
「この世にないものは、自分で作るしかない!」
その信念のもと、E'GA研究室では現在、対訳文のデータ化作業をスタッフ総動員で進めています。
共同研究のご案内
本プロジェクトでは、近い将来、多くの研究者に向けて「日中対訳コーパス」を公開することを目指しています。
また、2024年4月以降、日中対訳コーパスを活用した共同研究を募集しております。共同研究では、著作権の関係で未公開のデータも含めた分析が可能です。ご興味のある方は、お気軽にお問い合わせください。
言語研究における多言語資源の充実化に向け、今後の進展を温かく見守っていただければ幸いです。
語学Lab E'GA
e-Rad研究機関名:一般社団法人E’GA
代表理事:宮本華瑠
研究者番号:90985524
researchmap
コーパス情報
一般社団法人E'GA「日中対訳EGAコーパスVer.1」
(2023年12月10日~2025年10月11日)
注)著作権法の関係上、現時点で公開可能なのは構築中の対訳コーパスのごく一部に限られております。その点につきましては、何卒ご理解いただければと存じます。
「日中対訳EGAコーパスVer.1」利用申請受付一時停止(2025年10月12日)
【今後の予定】構築済みデータを用いた検索ツールの構築&公開に向けて作業を進めております。