• 节气
  • CA
  • 运动员
  • 浙江
  • 支原体
  • 夏威夷
  • 存档
  • 更多
  • 最热搜索
    社会调查报告的写作方法  强的松  管理規章  浅海  精华  数学课  激励机制  ivt閽佺皑娴兼氨婢跺洨閻炲棗濮欏鏄硋twisyfiles  电站  管理专业毕业论文  新世纪教师  样板戏  市场部年度工作计划  多民族  微观经济学第六版  -CX  麦科特  合技巧  内资  护理伦理  革命性  同样在  标准审查报告  法学家  八国联军  侯文咏  knits  POWERPOINT  产负债表标准格式下载搜索doc  育管理专业社会调查实施方案下载搜索  冠名赞助  后缀  原委  瀛敓淇伅绠悊绯荤粺涓嬭浇鎼滅储doccom鍏嶈垂鍏潰鐨勬枃妗悳绱笅杞界珯files  德佳  康利  达科仪  电视台实习报告  姹借溅gps瀵艰埅绯荤粺閫氱敤瑙勮寖  安奉  工艺美术品  经济效果  丰仑  物业信息管理系统  法分析  小团体  安博  种c语言的比较测试报告下载搜索d  罗斯福  快速  鸿门宴  行管专科社会调查表  计算机网络培训  工作中不足和改进  传唱  FTNLs  器具  花这篇  建筑业企业资质申请登记表  良好农业规范  茶业产业经济学分析  电大会计电算化课件  适龄儿童  鍑哄樊鍒跺害  做什么  HourGlass  英国 丰金融  金属材料学  中国国际  头前  烽烟  科竞试  鏁欏笀鎼滅储涓嬭浇doccom鍏嶈垂鍏潰鐨勬枃妗悳绱笅杞界珯files  校风  库诚邀  汽车专业  工作中自我分析  沼气  职业卫生  教育技术毕业论文指导书  行政人事  合作无间  超市管理信息系统可行性研究报告  报刊杂志  销售管理系统  复试  德汉对照  及美术  建筑地基基础工程施工质量验收规范  PDLOMLDRZX  技术经济论证  药品生产质量  娄策群  绿色 壁垒  联网  热带  治道  排水  Carte  辩论  

    现代汉语语义词典的概要及设计*

      文件类型:PDF/Adobe Acrobat   文件大小:9436字节

    内容摘要:

    《现代汉语语义词典》的概要及设计*
    王惠詹卫东
    (北京大学计算语言学研究所)
    yystud@pku.edu.cn
    刘群
    (中科院计算技术研究所)
    liuqun@mtgroup.ict.ac.cn
    摘要《现代汉语语义词典》是一个汉英机器翻译系统中的重要组成部分.目前,该词典的研
    制已取得阶段性成果,对4万余条汉语常用实词的语义分类及语义搭配信息逐一作了描述.本文
    介绍该语义词典的设计原则与主要内容,规模和结构,并探讨了一些相关的研究课题.提出在当
    前的汉语分析系统中,采用"语法分析为主,语义分析为辅"的分析方法,把语义分析作为一种
    辅助方法,协助解决句法分析所无法解决的歧义问题,是切实可行而且经济有效的.
    关键词语义词典现代汉语机器翻译
    Design and Ess entials of
    the Semantic Knowledge-base of Contemporary Chinese
    Wang Hui Zhan Weidong
    Institute of Computational Linguistics, Peking University, Beijing 100871
    Liu Quit
    Institute of Computing Technology, Chinese Academic Science, Beijing, 100080
    Abstract The Semantic Knowledge-base of Contemporary Chinese is an important component of a practical
    Chinese-English Machine Translation System. So for, a semantic classification system for Chinese is built, and
    more than 40,000 words, including 27,828 nouns, 10,787 verbs and 2,640 adjectives are marked with semantic
    attributes based on Valence Grammar, which describe the semantic features and collocation constraint of each
    word. It is favorable for disambiguation in parsing and generation, increasing translation speed and generating
    better translation results. In this paper, the design and essentials are discussed in details. Among them, some
    distinguishing features are well worth mentioning. First, the Machine Translation System relies on mainly
    grammatical analysis while making full use of semantic information, so the direct purpose of this semantic
    knowledge base is to provide semantic service to the parser. Second, the standard and depth of semantic
    classification only depend on grammatical analysis
    Keywords semantic knowledge -base Contemporary Chinese Machine Translation
    .本项研究受国家"863"项目(编号863-306-03-06-2)的支持.北京大学计算语言所俞士坟教授对本语义词典的开发及本文的
    写作都给予了很多指导,在此该致以深深的谢意.
    361
    前言 在机器翻译系统及其它自然语言处理系统中,通常都有一部包括句法,语义信息的电
    子词典.词典的设计与属性填写的质量直接影响着整个系统的性能与质量.中科院计算所
    在1994年开发"汉英机器翻译模型系统"时,就开始与北京大学计算语言学研究所联合
    开发《现代汉语语义词典》.目前,作为国家"863 "项目"汉英机器翻译系统"的一个
    重要组成部分,该词典的开发己取得阶段性成果,收录了4万余条汉语常用实词(其中名
    词27828个,动词10787个,形容词264.个),并在充分吸收汉语语义学及配价理论研
    究最新成果的基础上,逐词进行语义分类并描述其配价信息,使机器借助它能够提取真实
    文本中句子所携带的语义信息.
    2《现代汉语语义词典》的设计思想
    2.1词典的直接目标是为汉语语法分析提供语义知识的支持
    语义研究虽然具有非常重要的意义,而且我们的实践也证明了细致的语义分析确实可
    以较大幅度地提高翻译的正确率.但对汉语来说,目前语义自动分析还困难重重,基础也
    极为薄弱.尽管本世纪以来国际上多种语义学理论流派纷呈,并围绕着语法与语义,语义
    能否形式化及如何形式化等问题不断展开争论,但直到今天,无论汉语的词义分析还是语
    义结构分析,都还很难找到能够处理大规模真实文本中的语义问题的可形式化的理论和方
    法.从事机器翻译的人大概都有这种体会,语义分析是机器翻译中模糊性最大,最难于处
    理,最不成体系的部分.因而,在现阶段,要跳过语法分析阶段,构造一个基于语义分析
    的机器翻译系统,是不太现实的.
    与语义分析相比,语法分析的条件则好得多.我们不仅有较为易于形式化的"短语本
    位"语法体系,而且有在此理论直接指导下开发出来的包含5万多汉语词条的丰富的语
    法属性描述的《现代汉语语法信息词典》作为语法资源库Ill因此,从工程实用的角度出
    发,我们的机器翻译系统采用的是"语法分析为主,语义分析为辅"的分析方法,在整个
    汉语分析过程中,语法分析构成了分析系统的框架[[s1.在对输入的汉语句子进行切词,词
    性标注,结构分析的基础上得到一棵符合汉语语法关系的句法树,系统再将其转换为一个
    合格的英语句法树,然后进一步生成英语译文.由此可见,语法分析是整个系统的基础与
    关键,它直接影响着翻译结果的质量与翻译系统的成败.
    当然,在真实文本中,汉语句子的各种结构关系与结构层次歧义纷繁复杂,有时只靠
    词性标记与语法属性来判断,还是很难生成唯一正确的句法树',,.比如,"看语言学杂志"
    这样的短语,对于计算机来说就是一个"V+N+N"词串序列,它到底是述宾结构还是定中
    结构 如果是述宾结构,+A"的宾语是"语言学"还是"语言学杂志" "语言学"
    与"杂志"之间又是什么关系 修饰还是并列
    正是为了有效地解决这些问题,提高系统的处理效率与质量,我们在语法分析基础上
    引入了语义处理机制,利用一定量的语义信息来进行多义词的义项判断,消除兼类,排除
    -362-
    句法分析和转换时的歧义,增加句子的分析深度,使得系统得出正确的句法结构.这也就
    是说,我们所进行的语义分析并不是完全的语义分析,并不试图弄清楚句子中所有句子成
    分之间的语义关系,而完全以经济有效为原则,语义分析只是作为一种辅助方法,协助解
    决句法分析所无法解决的歧义问题.从这个意义上说,本语义词典建立的是一个立足于短
    语本位语法体系的语义模型,具有比较浓厚的句法色彩川.
    本系统的语义分析是为汉语语法分析服务的,并且最终是为汉英机器翻译服务的,这
    决定了本语义词典具有以下两个特点:(1).语义概念尽量简化,凡是可以用明确的语法手段
    表达的语义知识,如时间,空间,数量,时态,语气等,均不必纳入语义词典:凡是能够
    通过语法分析排除的歧义现象,也均不再进行相应的语义分析.语义词典重点放在对汉语
    名词,动词,形容词这三类汉语实词进行语义类划分,并逐一描述其语义搭配限制.(2).
    不包括对机器翻译没有直接帮助的语义分析,如句子中的量词辖域,真值条件等问题.(3).
    本语义词典既自成体系,又与北京大学计算语言研究所开发的《现代汉语语法信息词典》
    有着紧密的联系,语义词典的词条均来自于语法词典,而且这两部词典可以通过"词语,
    同形,词类"等关键字段链接在一起,从而使翻译系统可以很方便地将止者结合起来使用,
    获得较为完备的语法,语义信息.
    2.2从工程实用的目的出发,选择配价理论作为语义分析的理论框架
    自然语言的语义分析理论,目前比较流行的有格语法,题元理论,配价语法,蒙塔古
    语义学,境况语义学等.但对于计算机来说,只能利用有限的形式化手段来实现语言学界
    已取得的语义学研究成果.在对各种语义学理论进行比较之后,考虑到已有的丰富的语法
    基础资源以及汉语语言学界对名词,形容词的配价问题所做的有益的拓展性研究,我们选
    择了配价理论作为理论框架,对动词,名词,形容词的语义搭配情况进行描写.
    2.3采用语义分类与属性描述相结合的语义信息表述方式
    分类法与属性描述法是机用词典常用的两种信息表述方法.在理论上,这两种方法对
    于认识事物是等价的,在实际操作中,各有优缺点.分类法简单明了,上下层级之间属性
    易于传递和继承,但分类标准的交叉,矛盾难以克服.相比之下,属性描述法更便于掌握,
    只要填写出具体词语的语义属性,而不必很费劲地去归类,但这种方法容易遗漏信息,一
    致性不好保证f51.
    《现代汉语语义词典》是采用二者相结合的办法,首先根据语言分析的需要,提出一
    个语义分类体系,然后在归类的基础上,采用复杂特征集的方式逐词描述语义搭配信息.
    目前,该词典采用成熟的关系数据库技术(在FOXPRO软件下实现),共包括3个数据库
    文件,名词,动词和形容词各1个.每个库文件都详细刻画了词语及其语义属性的二维关
    系.2.4具有良好的可移植性,面向通用领域的现代汉语
    《现代汉语语义词典》虽然目前应用于汉英机器翻译系统,但其设计原则是独立于特
    定系统的,它反映的是现代汉语的词语语义分类及组合限制的基本语言事实.词典的收词
    原则及语义属性的确定也都是面向通用领域的现代汉语的.各个具体的应用系统都可以从
    中提取出所需要的知识.当然,将语义词典应用于不同的系统时,也可以通过词语及义项
    "363"
    的选取,属性的增删向各个具体系统倾斜.
    语义词典作为语言信息处理的基础,不仅可以应用于多种处理系统〔如:机器翻译,
    自然语言接口,文献检索,信息自动提取,语音识别与合成,文字识别,中文输入,文本
    校对,语料库加工等),而且也可以在语言学研究,尤其是现代汉语语义学研究中得到应
    用(如开展汉语语义定量研究等).
    3《现代汉语语义词典》的语义分类体系
    国内外对汉语语义分类体系的研究己有了一些成果,如:梅家驹《同义词词林》,林
    杏光《简明汉语义类词典》,陈群秀,张普《信息处理用现代汉语语义分类体系》等.由
    于各家分类体系的目的及应用范围不同,对同一事物可能有不同的定义与归类.如"动物"
    在一个语义体系中分为:"兽类,鸟类,鱼类,虫类,爬行类"M,而在另一个体系中分
    为:"脊椎动物,腔肠动物,软体动物".但这些分类体系都是基于自然科学或常识而独
    立于语法的.在实际的自然语言处理系统中,如何将这些语义知识与语法知识有机地结合
    起来是一件很困难的事情.因此,它们对语言分析的作用是有限的.
    我们的语义分类体系是为了辅助语法分析而设计的,因此,语义分类的标准及分类深
    度均应从为语法分析服务的角度来确定.应用语义知识应着重于解决那些仅靠语法规则难
    以解诀的问题.这应该是我们的唯一标准.
    本词典首先将词语分为事物类,运动类和性状类,然后再逐步区分更细的语义类.在
    这三大类中,事物类层次较多,分类相对较细;运动类和性状类层次较少,分类较粗,只
    要能揭示出与名词性成分组合的不同类型即可.本词典的语义分类体系如下:
    事物
    1具体辛物
    1. 1生物
    1.1. 1人类
    1.1.1. 1人
    工.工.1. 1. 1泛称:男人老人少年我你
    1.1.1.1.2职业:教师工人会计医生
    1. 1. 1. 1. 3身份:知识分子华侨律师外行
    1. 1. 1. 1. 4亲属和关系:父亲阿姨长辈朋友
    1.1.1.2集体;工厂委员会医院商店剧团犯罪团伙
    1.1.2动物:鸡鸭狗猪老虎豹子孤狸
    1. 1. 3植物:树花草牡丹芍药蔬菜水果
    1. 1. 4植物:树花草牡丹芍药蔬菜水果
    1. 1. 5微生物:细菌霉菌病毒
    1. 1. 6排泄物:汗尿粪便奶水眼泪
    1.2非生物
    1. 2. 1自然事物
    1. 2. 1. 1地貌:陆地原野沙淇
    1.2.1.2气象:风雨云虹晚筱
    1. 2. 1. 3天体:太阳月亮星星
    1.2.1.4其他自然物:火电光水土声音灰尘
    1.2.2人为事物
    1. 2. 2. 1建筑物:楼房别墅礼堂会议室水库庙
    1.2.2.2可食物:菜饭面包补品药维生素
    1.2.2.3用具:剪子刀伞拖把脸盆衣架大炮
    "364"
    1. 2. 2. 4服饰:西装
    1.2.2.5材料:木材
    1.2.2.6作品:油画
    裤子连衣裙
    玉石玻璃
    播象奉物
    谊情术
    友感艺
    势系情准解学
    形关表标见科
    1事情:学潮往事命运经验
    2事理:规律目的条理证据
    3外观:形状容貌神情态度
    4性能:特征性质质f力f
    5性格:品行道德作风
    6意识:意图幻想兴趣主意
    7信息:话密码声明口信
    8生理:炎症瘟疫疾病
    9领域:社会经济文教法律
    10其他抽象事物:视差视角
    222222222么332
    绝对时间:宋朝三国二十世纪
    相对时间:昨天当代古代今天
    问间
    时空
    4. 1方位:东南
    4. 2具体空问:西湖
    运动
    关联:是
    心理活动:
    行为
    3. 1
    3Z
    3. 3
    3. 4
    3'5
    3.6
    3. 7
    3. 8
    3.9
    有包括
    企图认识
    含存在
    吝惜
    自变:死病
    促变:繁荣减少
    自为;笑休息咳嗽
    自移:游泳走跑
    搬移:扔搬推扛
    对待:看庆祝参考
    给予:卖送发
    获取:买取得
    创造:写创建描绘
    遭受:遭到受到象受
    性状


    尖大

    圆糙私宾
    粗洞自寂
    方淡空
    夹素稚险
    小凉辣坏幼危

    大松鲜苦好学穷
    博贫
    短紧黄甜假
    良忙
    长亮红睦真善繁
    形象色道质格况
    外表颇味性品境
    11气L八jJ呀'J'曰,.
    4《现代汉语语义词典》的属性描写
    语义分类法刻画事物固然简洁,清晰,反映了词语最基本的语义信息,但信息的颗粒
    度无疑很大.词汇语义的个性一般比较突出,同属于一个语义类的词语,其内部属性及搭
    配要求很可能相去甚远.如:语义类是"自为"的动词,其动作的发出者(主体)则可能
    "365.
    完全不同,"唱戏"的主体是"人","产卵"的主体是"动物","抽穗"的主体是
    "植物","涨潮"的主体是u自然物".因此,为了进一步提高系统的性能,语义词
    典还要在分类的基础上,依靠属性描述来刻画每一个词语与周围名词性成分所发生的语义
    组合关系.这主要包括一个实词的配价数以及该实词对其配项成分的语义限制两个方面.
    (1)配价数
    对动词来说,配价数是指一个动词能支配多少名词性成分.理论上说,在一个句子中,
    直接受谓语动词支配的名词性成分不得超过3个:主语,宾语1,宾语2.动词能支配几
    个名词性成分,它就是几价动词.如果能支配1个名词性成分,则为一价动词(如"奔跑,
    出差,劳动,前进,病,失败"等);如果能支配两个名词性成分,则为二价动词(如"搬,
    穿,发明,制定,听见,遗失,是"等);如果能支配3个名词性成分,则为三价动词(如
    "给,给予,问,回答,借,送给"等).配价是从静态的角度依据动词的词汇意义确定
    的,因此,就某个具体的动词而言,其配价是相对稳定的【月.
    本词典把动词的"配价"概念进一步推广到形容词和名词上来,在句子中,只要求一
    个名词性成分与之共现的形容词,配价数为1,如:么雨/雨很么;要求两个名词性成分
    与之共现,配价数为2,如:小李对人很垫值2他对象棋的兴趣毯复.
    名词的配价则表fW.为支配性名词要求语义上受其支配的从属名词与之共现.要求一个
    从属名词与之共现,配价数为1.如"老李的玄问1L回来了/小坡的贡兰病了"这两句话中
    的"女儿,爸爸"都是一价名词.因为,从意义上看,它们在表示某事物的同时,还隐含
    了该事物跟另一个事物之间的某种依存关系.当它在语句中出现时,它不仅是句法上的中
    心词,而且是语义上的支点,不能省略.如上面两个例句不能省略为"*老李的回来了/中
    小坡的病了".
    同样,在句中要求两个名词性成分与之共现的名词,是2价名词.如:"这件事老李
    有盒见/他对刘刚一直没有赶A"中的"意见,好感".从语义上看,"意见,好感"一
    般是某人针对某人或某物的,涉及到两个个体.因而,在句子中要求两个配项与之共现,
    如果其中一个配项不出现,那么句子的语义就不完整,如:"老李有意见/他一直没有
    好感". (2)配项的语义限制描述
    本词典一般使用名词所属的语义类来表示配项的语义限制,如"逃跑"的主体是"人
    类}动物"(}表示"或"的关系);对于那些不易于从正面限定语义类的,允许以否定
    的方式从反面限制,如"越冬"的主体是"生物一人类一构件"(一表示"非");极端
    的情况是,直接用名词本身或含有某个汉字的名词来表示,如"晒"的主体是"太阳",
    "吹拂"的主体填,'*风"(引号中的"水"表示任意汉字串).
    在本词典中,仅对以下3种配项成分进行语义限制:
    (a).主体:指动作行为的发出者或性状的承当者.
    如:动词"逃跑"的主体填"人类/动物","刮倒"填"气象","死"填"生物".
    形容词"红"的主体填"具体事物","友好"填"人类/动物".名词的主体填该
    名词所能支配的从属名词的语义类.如:"女儿"和"老师"的主体都填"人类".
    (b).客体:指动作行为所涉及的直接对象或性状的关涉对象.
    如:动词"擦"的客体填"人为事物/构件","画"填"作品","丧失"填"抽象
    "365"

    事物".形容词"眼熟"的客体填"具体事物","有利"填"人类/抽象事物".
    (c)邻体:指事件中有利害关系的间接客体,如受益者或受损者.只有三价动词才需要填
    写邻体语义类属性.如:"给"的邻体填"人类","送"也填"人类".
    5结语
    我们的汉英机器翻译系统在语法分析的基础上引入了语义词典中的信息以后,较大地
    提高汉语的多义词处理,短语结构层次和结构关系的判断,语言成分间语义关系的确定等
    不同层面的分析深度与精确度,使得本机译系统在1997年度的"863"办公室组织的机器
    翻译系统评测中取得了译文质量得分最高的好成绩.
    机用语义词典的开发毕竟是一项长期的语言工程,不可能毕其功于一役.本项研究还
    只是一个开始.它虽然可在汉语分析的局部领域起到较大的作用,但不能指望它解决所有
    的语义问题.在现阶段,它不仅对"咬死了猎人的狗"这类对人有歧义的结构无法解释,
    而且对那些在人看来完全没有歧义的"公司技术力量雄厚"和"电影事业人才短缺"这
    类的格式也不能作出唯一正确的分析.这需要我们在实践应用中不断地发现问题,解决问
    题,逐渐完善现有的语义分类体系及属性特征的设立与描写.
    参考文献
    〔幻俞士泣等,现代汉语语法信息词典详解.北京:清华大学出版牡,1998年4月
    (2〕刘群等.一个汉英机器翻译系统的计算棋型与语言模型.'智能计算机接口与应用进展》:253-258.北京:电子工业出
    版社,1995
    (3]陈小荷.一个面向工程的语义分析体系.语言文字应用,1998年第2期:71-76, 1998年5月
    〔引詹卫东.词的语义分类在汉英机器翻译中所起的作用及难以解决的问题.《语言工程》.北京:清华大学出版杜.1997
    153陈群秀.有关语义分类体系研究的几个问肠.《中文信息处理应用平台工程》227-232.北京:电子工业出版社,1995
    沁1梅家驹等.同义词词林.上海:上海辞书出版社,1985
    C7」沈阳等.现代汉语配价语法研究.北京:北京大学出版社.1995
    作者简介
    王惠
    詹卫东:
    刘群:北京大学计算语言学研究所,讲师.研究兴趣:计算语言学,当前研究方向:现代汉语语法,语义分析
    北京大学中文系,博士研究生.研究兴趣
    中科院计算技术研究所二室,副研究员.
    语言学,当前研究方向:现代汉语语法
    研究兴趣:自然语言处理,当前研究方向:机器翻译
    -367-卜
    ·上一篇:总第二卷
    ·下一篇:"小学教学仪器配备"