推广文章

Site PathHome > > 推广文章 > 语料库
0

几个常见的汉语语料库分析

  • 索引487
  • 发布时间2021-03-23
  • 点击次数
  • 加入收藏
  • 发表评论
  • 语音阅读
通用汉语分词语料中,具代表性、影响力大的首先是北京大学的人民日报分词语料。该语料库目前发布出来的主要是1998年1月的人民日报语料,由俞士汶先生带领北京大学计算语言研究所的研究人员完成。该语料库的研制过程中还提出了标注规范,并研究了检索方法[1-2]。其次是国家语委现代汉语通用平衡语料库,该语料库的突出特征是平衡性和规模大,不仅具有新闻语料而且涵盖了经济、军事、体育等不同领域的素材[3]。再次是清华汉语书库中的分词语料,该分词语料的突出特征是基于黎锦熙先生的“凡词,依句辨品,离句无品”的语言学理论实现对汉语分词的[4]。最后是宾州汉语树库中的分词语料,该分词语料库的突出特征是按照结构主义语言学的理论完成对汉语分词的[5]。在上述4种汉语分词语料中,前两种分词语料规模较大,所使用的分词理念和规范具有较强的一致性,但是,随着时间的推移,语料时效性问题越来越突出。后两种分词语料所采用的语言学理论具有一定的独特性,但规模上相对较小,且同样存在语料时效性较差的问题。

汉语语料库分析


参考文献:
[1] 俞士汶,段慧明,朱学锋.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002(5):49-64.
[2] 王洪俊,施水才,俞士汶.人民日报标注语料的索引方法研究[C]// 全国计算语言学联合学术会议.全国第八届计算语言学联合学术会议(JSCL-2005) 论文集.南京: 南京师范大学,2005:576-578.
[3] 国家语言文字工作委员会.国家语委现代汉语语料库[EB/OL].[2019-06-02]. http://www.cncorpus.org/.
[4] 周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):2-9.
[5] ANTONY P J,WARRIER N J,SOMAN K P.Penn treebank -based syntactic parsers for South Dravidian languages using a machine learning approach[J]. International journal of computer applications,2010,7(8):14-21

原文出处:http://corpus.njau.edu.cn/wiki/002

相关文章阅读
互联网上开放的中文语料库有哪些
分词介绍
新时代人民日报分词模型

0