Skip to content

Latest commit

 

History

History

evsam05

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
# 第二届自然语言处理与中文计算会议(NLP&CC; 2013)

[第二届自然语言处理与中文计算会议(NLP&CC 2013)技术评测样例下载](http://tcci.ccf.org.cn/conference/2013/pages/page04_sam.html)

## 中文语义依存关系分析

1、本次中文语义依存分析将在两个语料库上进行评测,其中THU文件夹内为清华大学语义依存网络语料,HIT文件夹内为哈尔滨工业大学依存语料库。
   每个语料库都包含三个文件,分别为train.conll,dev.conll和test.conll。
   train.conll为训练语料,用于模型训练;
   dev.conll为开发集,用于模型参数调优;
   test.conll用于测试,根据会议日程,暂不发布。

2、参赛者可以在两个语料的训练语料上上分别训练模型,也可以结合两个语料库的训练语料训练统一的模型。


3、所有数据文件均采用CONLL格式,UTF8编码。CONLL标注格式包含10列,分别为:
   ---------------------------------------------------------------------------------
   ID	FORM	LEMMA	CPOSTAG	POSTAG	FEATS	HEAD	DEPREL	PHEAD	PDEPREL	
---------------------------------------------------------------------------------


   本次评测只用到前8列,其含义分别为:

   1	ID	当前词在句子中的序号,1开始.
   2	FORM	当前词语或标点  
   3	LEMMA	当前词语(或标点)的原型或词干,在中文中,此列与FORM相同
   4	CPOSTAG	当前词语的词性(粗粒度)
   5	POSTAG	当前词语的词性(细粒度)
   6	FEATS	句法特征,在本次评测中,此列未被使用,全部以下划线代替。
   7	HEAD	当前词语的中心词
   8	DEPREL	当前词语与中心词的依存关系

   在CONLL格式中,每个词语占一行,无值列用下划线'_'代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行分隔。


### THU语料的统计信息

```
Sentence count: 20001

Word count: 165541

PosTag count: 22

        a   5867

        b   2923

        c   4590

        d   8995

        f   2676

        h   10

        k   205

        m   8556

        M   1

        n   43817

        o   17

        p   8274

        q   2118

        r   5837

        R   2

        s   666

        t   3600

        u   13973

        v   33263

        x   36

        y   5

        z   109

Dependency label count: 69

        ..是..的依存    441

        “的”字依存  11091

        伴随  56

        比较量 37

        比较内容    8

        并列  97

        部分  110

        材料  22

        参照体 262

        程度  3616

        除了  2

        处所  2036

        触及部件    6

        存现体 589

        代价  28

        递进  7

        动量  245

        范围  757

        方式  3205

        方位词依存   2284

        方向  150

        根据  102

        工具  66

        关联词依存   1855

        关系主体    2184

        核心成分    15354

        后延时段    50

        接续  182

        结果  287

        结果事件    738

        介词依存    7788

        进程时段    351

        经验者 2028

        来源  102

        类指  719

        连接依存    8531

        领有者 1

        描述  3368

        描写体 1188

        目标  1337

        目的  425

        内容  3746

        频率  288

        评论  4477

        起始时间    186

        趋向动词依存  535

        让步  7

        施事  7430

        时间  2401

        时距  133

        时态依存    3283

        时态语态依存  199

        事件过程    12

        手段  78

        受事  6153

        数量  5627

        条件  114

        通过处所    38

        同位语 942

        限定  36014

        相伴体 775

        语气依存    91

        原处所 198

        原因  284

        原状态 96

        整体  180

        终处所 388

        终止时间    76

        终状态 84

Average sentence length: 8.2766

Average dependency length: 2.0258
```