网站首页 | 经济学论文 | 证券金融 | 管理学 | 会计审计 | 法学论文 | 医药学论文 | 社会学论文 | 教育论文 | 计算机 | 艺术论文 | 哲学论文 | 财务管理 |
写论文网
  • 民法论文
  • 经济法论文
  • 国际法论文
  • 法学理论论文
  • 司法制度论文
  • 国家法论文
  • 宪法论文
  • 刑法论文
  • 行政法论文
  • 您的位置:写论文网 > 法学论文 > 民法论文 > 英汉语法的不同 通用英汉谓... 正文 2019-10-16 07:36:25

    英汉语法的不同 通用英汉谓词语法标注方案

    相关热词搜索:

    通用英汉谓词语法标注方案

    通用英汉谓词语法标注方案 摘要:经过语法标注的语料对语言的研究、教学、测试、词典编撰等各领 域都具有重要意义。国内外语法标注的体系存在四个主要问题:(1)标注的重 点各不相同,有的侧重结构,有的侧重功能,有的侧重语义;
    (2)标注的层次 深浅不一;
    (3)在语法范畴的划分和术语的使用上各行其是;
    (4)国内树库的 建设原创性不足,标注不够深入。本文作者从语言共性的角度出发,建立了一套 通用的英汉谓词语法标注方案,区分语法形位和词汇形位,对语料的切分尽可能 做到使英汉形位在形式、功能及意义上相互对应。我们通过对一个小规模英汉平 行初级儿童读物语料库里的谓词进行标注,结果证明这套标注方案是可行的。

    关键词:英汉谓词;
    语法标注;
    英汉平行语料库;
    儿童读物 中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2014) 02-0003-0008 1、引言 要想让机器理解和产出自然语言并从事语言间的互译,除了对不同语言的 语料按照语言单位进行多层次切分并对切分后的语言片段进行语言间的语义匹 配外,更重要的是,要对这些语言片段之间的语法关系进行分析和标注。为此, 需要一个能对两种语言同时进行分析和标注的语法体系和标注方案 (annotationscheme)。对语料库的语法标注始于上世纪80年代,现已开发出多 个标注方案,对英语、汉语等不同语言的语料库进行了程度不同的标注,产生了 规模不等的树形语法结构库,即树库(treebank)。其中美国宾夕法尼亚大学英 语树库(The Penn Treebank,简称PTB)的标注方案还被用来标注汉语,从而建 立了宾大汉语树库(The Penn Chinese Treebank,简称CTB)。由于所采纳的语 法理论以及建库的目标等因素的不同,各个语料库之间很难做到信息共享。从语 言对比的角度来说,不利于语言之间的对比分析。基于以上考虑,我们尝试着从 语言普遍性的角度出发,构建了一套谓词语法标注体系。该体系采用统一的标注 方式,既能用于标注英语语料,也能用于标注汉语语料。这样,不仅能获取语法 知识,还可以进行语言之间的对比研究。同时,对于机器翻译来说也具有很大的 启示。

    2、国内外句法标注体系概述语法标注的目标是对语料文本进行句法分析和标注,从而形成树库语料。

    经过标注的语料可以用于语言学研究、语言教学、语言测试、词典编撰等诸多理 论研究和实践应用领域。上世纪80年代末90年代初美国宾夕法尼亚大学建立起第 一个大规模树库――宾大树库,紧接着英国建立了兰卡斯特一利兹树库 (Lancaster-Leeds Treebank)。之后许多国家纷纷建立起自己语言的树库,如德 国萨尔州大学(Saafland University)建立的带句法标注的德语报刊文本语料库 (The NEGRAcorpus)和斯图加特大学(University of Stuttgart)建立的TIGER树 库以及捷克PDT树库等;
    汉语树库有美国宾夕法尼亚大学的汉语树库、中国台北 中研院的中研院汉语树库(Sinica Treebank)、北京大学中文树库和北京大学现 代汉语树库、清华汉语树库(Tsinghua Chinese Treebank,简称TCT)、国家语委 现代汉语树库等。

    宾大树库的标注体系经历了一个从简单到复杂的不断进化发展的过程。

    PTB-1采用了骨架分析(Skel-ton Parsing)思想,形成比较扁平的句法结构树。

    该标注体系标注英语的8种短语、2种陈述句、从属句、Wh-直接疑问句、一般直 接疑问句的次成分、不明类别以及4种零形式成分(Marcus et al.,1993)。PTB-2 主要是用于提取述谓一论元结构(predicate-argument strut-ture)。目前Penn树库 又把目光转向了语篇的标注。

    兰卡斯特的语法标注源自于Sampson对Lancas-ter-Leeds树库的手工分析, 也采用骨架分析技术。这一标注体系使用详细的括号标识系统和简化的成分集 (Garside et al.,1992),标注的成分包括6种短语、7种语句、句子、属格和并 列成分。此外,还包括没有标识的成分和并列成分。

    尽管宾大树库和兰卡大学树库都采用的是骨架分析的方法,但是宾大树库 的短语分类多于兰卡大学树库,而语句的分类较少。此外,宾大树库除了标注短 语和句子两个层面外,还添加了功能标记。也就是说,宾大树库的标识集相对要 全面一些。

    在德国首先建立起来的树库是NEGRA德语语料库(Skut et al.,1998;
    Brants et al.,1999),内容主要是经过句法标注的新闻文本,大约有20,000个标注的 句子。接着建立了规模更大、标注更全面的TIGER树库(Brants et al.,2002)。

    TIGER树库1.0版中非终端节点的标识集标注的成分包括12种短语、3种并列形式、 2种不定式、2种多形符形式、句子、语块、准语言、专有名词、特殊单位和话语 层成分(Smith,2003)。可以看出,TIGER树库在短语分类上更细,标注层更 深。捷克PDT语料库的标注体系是一个包含有3个相互关联层次的系统:一是 形态(扩充的词类)标注,它含有特定词形的形态信息;
    二是分析性句法标注 ――依存树的节点是带有标记的构句词形以及表示支配节点和依存节点之间句 法关系的标注(如主语、宾语、附语、状语等);
    三是句法语义标注,即依存树 的节点是标有实义的构句词形和表示句法一语义关系的标注(如施事、受事、结 果、出处和各种不同的状语修饰成分等)。捷克语料库句法标注的特点包括以下 几点:①每个词和标点符号都由一个节点表示;
    ②除树根外不增加节点;
    ③最终 体现出来的是一棵依存树,树线(链接)被明确标出(标记粘着在依存树的依存 成员上);
    ④允许有非投射。在最终的树图上每个节点的标注在分析句法层面上 包括3部分:词汇(词形)、形态标记和句法标记(HajioHajiaova,1997)。

    PDT 的标注体系显然完全不同于前文所提到的其他树库。它标注的不是成分结构,而 是句法关系。这主要和构建树库的语法理论有关,PDT以依存语法(Dependency Grammar,Tesni6re,1959)为主,而其他的则以短语结构语法(Phrase Structure Grammar,Chom-sky,1957)为主。从描述框架上看,PTB采用的句法结构树和 PDT采用的依存树各有优势。句法结构树可以对不同层次的句法成分组合特点进 行细致的描述,但缺点是有时层次比较深,操作起来比较麻烦,而且中心词(hcad) 信息不突出。为此,PTB项目进行了一些改进,包括采用骨架分析方法减少层次 深度,增加功能标记突出中心依存关系等。而依存树的优势则在于明确地标注出 了中心词之间的句法依存关系,可以方便地转化为语义依存描述,但是对一些没 有明确依存关系的成分,它标注起来则有些力不从心(周强,2004:2-3)。

    • 范文大全
    • 教案
    • 优秀作文
    • 教师范文
    • 综合阅读
    • 读后感
    • 说说
    英汉语法的不同 通用英汉谓词语法标注方案》由(写论文网)整理提供,版权归原作者、原出处所有。
    Copyright © 2019 写论文网 All Rights Reserved.