|
|
語学Lab E'GA
e-Rad研究機関名:一般社団法人E’GA
代表理事:宮本華瑠
研究者番号:90985524
researchmap
公開済コーパス情報
一般社団法人E'GA「日中対訳EGAコーパスVer.1」(2023年12月10日)
「日中対訳EGAコーパスVer.1」利用申請フォームはこちら
「日中対訳EGAコーパスVer.1」のデータについて |
「日中対訳EGAコーパスVer.1」には、2014年7月15日から2023年8月31日までWebで公開された「人民網」(http://j.people.com.cn/95961/index.html)の日本語訳付きニュース記事(約270万字)が含まれております。
データは「著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない(著作権法第三十条の四)」利用として構成され、言語に係る情報を抽出、比較、分類及びその他の解析を行う際の科学的根拠として用いることを想定したデータになります。
本データは、言語に関する情報解析の可能性を最大限にするため、対になっている対訳文の長さは、「句」や「文」単位ではなく段落レベルにしております。その反面、段落の順番は無作為にシャッフルされており、文章全体及び段落間の連続性は失われたデータになります。
通時的研究をされる場合、本来公開されたニュース記事には年月日及び時刻が記載されておりますが、本データでは段落間の復元を避けるため日時の情報を「〇年〇月」に留めておりますので、ご了承をお願い致します。
Ver.1のご利用は日本国内に限らず、海外の利用者も想定しておりますので、著作権法の権利制限の問題上Webで公開された内容のみで構成されています。Ver.1のデータはニュースが主ですので、分析の際に文体的特徴に偏りがある点ご留意ください。
日中対訳EGAコーパスVer.1 データ量(単位:文字数)
年度 | 総字数 | 対訳文(対) | 中国語字数 | 中国語平均文長 | 日本語字数 | 日本語平均文長 |
2014年(6ヵ月) | 226,175 | 961 | 92,440 | 96.2 | 133,735 | 139.2 |
2015年 | 450,536 | 2,115 | 187,526 | 88.7 | 263,010 | 124.4 |
2016年 | 392,339 | 1,843 | 161,215 | 87.5 | 231,124 | 125.4 |
2017年 | 446,479 | 2,062 | 180,478 | 87.5 | 266,001 | 129.0 |
2018年 | 454,538 | 2,070 | 182,082 | 88.0 | 272,456 | 131.6 |
2019年 | 255,066 | 1,190 | 102,736 | 86.3 | 152,330 | 128.0 |
2020年 | 184,718 | 882 | 74,243 | 84.2 | 110,475 | 125.3 |
2021年 | 152,826 | 732 | 60,468 | 82.6 | 92,358 | 126.2 |
2022年 | 134,872 | 679 | 53,570 | 78.9 | 81,302 | 119.7 |
2023年(8ヶ月) | 32,069 | 165 | 12,598 | 76.4 | 19,471 | 118.0 |
統合 | 2,729,618 | 12,699 | 1,107,356 | 85.4 | 1,622,262 | 126.4 |
E'GA書店 アクセス
地下鉄中央線、堺筋線 地下鉄谷町線 |