一般社団法人E'GA

語学Lab E'GA       

 

 


                                                                                                http://e-ga.jp

  
 
 E'GA研究室では現在中日・日中対訳文をデータ化(Excelに入力)する作業を行っております。
 
 当研究室の専門分野は日中同形語ですが、その中でも特に「同義」とされてきた同形語(「所謂同形同義」)を研究対象としております。言語使用の中で同じ意味だと思われがちな同形語には実は、微妙なズレが潜んでいるケースが多く、当研究室では主にこのような主観では判断が難しい微妙なズレ:「グレーゾーン現象」に注目しております。
 
 プロの翻訳者が訳した文面と、人工知能(機械)で翻訳された文面、どちらも(特に同形類義)起点言語の影響をそのまま受ける傾向が見られます。翻訳者による翻訳及び機械翻訳の「精度」を上げるには、このグレーゾーン現象がカギとなるのではないでしょうか。
 
 何か不明確になっている事柄や謎を世間一般に流されることなく、確かなる根拠を集め、考察を重ねていく過程はとても楽しいことです。糸口を掴んだ時は実に達成感を感じたりします。
 
 女性として、家庭と仕事の両立はいろいろ大変ですが、疑問になっている「何か」を明らかにすることはわたくしの趣味ですし、遣り甲斐のあることだと信じております。何かを極める道のりは困難が付きもので、うまく進まないことの方が多いかもしれません。でも、周囲への忖度なく、自分が目指すことはとことん続けていこうと思います。
 
 では、本題に入りますが、近年『文章を科学する』(李在鎬編2017)という表現を私はとても気に入っております。「文章を科学する」ためには、謎を解く準備段階及び手順をしっかり整えることが大事です。即ち、言語資源を確保し、それに基づいた計量的分析を「正確に」行うということです。「意味の記述は、現象における量的なちがいを説明できなければ、不完全である」(宮島達夫1986;57)との教えをモットーに、自負を持って挑みたいと思います。
 
 これまでの日中対訳コーパスは、高度なシステム構築(アライメントなど)が要求されていましたが、近年はExcelに入力したシンプルなデザインが却って役に立つ場合もあります(テキストマイニング―KH coderなどの導入の場合)。残念ながら現在、利用できる既存の対訳コーパスは限られ、扱われているデータは50年前の作品がベースになっております。特に、中国語が起点言語になっている文章はジャンルに偏りがあり、現代の言語使用全般を代表できるようなデータとは言えません。適切な言語資源がデータとして利用できなければ「文章を科学する」のは到底無理な話です。
 
 「この世にないものは自分で作るしかない!」E'GAでは、近年対訳文のデータ化作業をスタッフ総動員で進めております。
 
 本プロジェクトは近い将来、多くの研究者に公開できる「日中対訳コーパス」の構築を目指しております。
 
 言語研究における多言語資源の充実化に向けて、今後の進展を見守っていただければ幸いです。同時に、2024年4月以降より日中対訳コーパスを用いた共同研究を募集しております。共同研究では、著作権法の規定によりまだ公開できていないデータも含めて分析できますので共同研究を希望される方はお問合せください。データ詳細に関してはこちらからご確認いただけます。

                                         語学Lab E'GA
e-Rad研究機関名:一般社団法人E’GA
代表理事:宮本華瑠
研究者番号:90985524
researchmap

 

公開済コーパス情報

一般社団法人E'GA「日中対訳EGAコーパスVer.1」(2023年12月10日)

 

「日中対訳EGAコーパスVer.1」利用申請フォームはこちら

 

「日中対訳EGAコーパスVer.1」のデータについて

  「日中対訳EGAコーパスVer.1」には、2014年7月15日から2023年8月31日までWebで公開された「人民網」(http://j.people.com.cn/95961/index.html)の日本語訳付きニュース記事(約270万字)が含まれております。

 データは「著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない(著作権法第三十条の四)」利用として構成され、言語に係る情報を抽出、比較、分類及びその他の解析を行う際の科学的根拠として用いることを想定したデータになります。

 本データは、言語に関する情報解析の可能性を最大限にするため、対になっている対訳文の長さは、「句」や「文」単位ではなく段落レベルにしております。その反面、段落の順番は無作為にシャッフルされており、文章全体及び段落間の連続性は失われたデータになります。

 通時的研究をされる場合、本来公開されたニュース記事には年月日及び時刻が記載されておりますが、本データでは段落間の復元を避けるため日時の情報を「〇年〇月」に留めておりますので、ご了承をお願い致します。

 Ver.1のご利用は日本国内に限らず、海外の利用者も想定しておりますので、著作権法の権利制限の問題上Webで公開された内容のみで構成されています。Ver.1のデータはニュースが主ですので、分析の際に文体的特徴に偏りがある点ご留意ください。

日中対訳EGAコーパスVer.1 データ量(単位:文字数)

年度総字数対訳文(対)中国語字数中国語平均文長日本語字数日本語平均文長
2014年(6ヵ月)226,17596192,44096.2133,735139.2
2015年450,5362,115187,52688.7263,010124.4
2016年392,3391,843161,21587.5231,124125.4
2017年446,4792,062180,47887.5266,001129.0
2018年454,5382,070182,08288.0272,456131.6
2019年255,0661,190102,73686.3152,330128.0
2020年184,71888274,24384.2110,475125.3
2021年152,82673260,46882.692,358126.2
2022年134,87267953,57078.981,302119.7
2023年(8ヶ月)32,06916512,59876.419,471118.0
統合2,729,61812,6991,107,35685.41,622,262126.4

 

 

 
 
 
 
 
E'GA書店
 
 
 

アクセス
〒541-0054 
大阪市中央区南本町1丁目3–9
サンコービル2F 203

TEL:
06-6484-6621
 

 

地下鉄中央線、堺筋線 
堺筋本町駅 1番出口より
徒歩1分

地下鉄谷町線
谷町4町目駅6番出口より
徒歩7分