 |
计算词典学 |
|
>>>> |
WordNet及其相关资源研究 |
|
|
WordNet的经典文献 |
WordNet的经典文章(ps格式),doutfire作了中文翻译 |
|
基于WordNet的英语词语相似度计算 |
主要介绍一种基于WordNet的英语词语相似度的实现方法, |
| |
|
从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度,我们的向量包括三方面:(1)WordNet的同义词词集(Synset)(2)
类属信息(Class) (3)意义解释(Sense explanation)。实验结果表明这是计算英语词语相似度的一种可行的方法。 |
>>>> |
新词语信息电子词典 |
|
|
《现代汉语新词语信息电子词典》的研究与实现 |
烟台师院亢老师的关于新词语词典构建的论文。 |
| |
|
本文从四个方面说明了《现代汉语新词语信息电子词典》的基本情况。(1)现代汉语新词语的界定(2)新词语词典的开发思想(3)新词语的采集与新词语词典所描述的属性信息(4)近四万新词语的归类实践。 |
|
基于语料库的现代汉语新词语动词语法特点的研究 |
本文以《现代汉语新词语信息电子词典》的已有成果为基础, |
|
|
以大规模真实语料的统计数据为依据,用概率值来描述动词的各项语法属性。并进一步探讨新词语动词研究的发展方向。 |
 |
 |
语料库、知识库 |
|
>>>> |
百科知识提取 |
|
|
《中国大百科全书》人物传记知识提取加工规范 |
将百科辞典中的知识形式化,是使用计算机进行知识服务的根本 |
|
|
基础。目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写。这两种方法都需要大量的高级人力的投入。我们试图用计算机自动提取百科辞典中的知识,主要思路是降低要求,只提取有充分的、明确的形式特征的显性知识,并且先由人工模仿计算机进行提取,建立起显性知识的数据库,供计算机系统进行训练和测试。本文详细介绍了百科辞典中人物传记条目释文中显性知识的表示规范,包括知识点的取舍,简单知识和简单知识组的形式化表示方法,以及显性的复杂知识的提取方法。 |
|
|
|
>>>> |
语料库 |
|
|
搭建对外汉语教学口语语料库 |
|
|
基于动态流通语料库的VSM新词发现策略 |
本文以《现代汉语新词语信息电子词典》的已有成果为基础, |
| |
|
探讨了基于动态流通语料库的新词发现策略。并提出基于动态流通语料库的改进VSM的新词发现方法及其新词评价。 |
|
关于汉语组块(CHUNK)研究的几点观察和思考 |
词语搭配是自然语言理解的一个基础性研究课题。 |
| |
|
目前大多数搭配提取系统都是依赖于对出现在给定关键词的上下文窗口中候选词的统计特性进行分析提取获得。由于大量噪音的存在,自动搭配提取系统的精度很难理想。引入短语构成信息可以有效地提高自动搭配提取系统的精确度。 |
| |
|
|
 |
 |
统计语言学、语言学理论 |
|
|
语言学家需要的Bayes方法 |
北大计算语言所于江生老师的一篇关于统计方法的文章。 |
|
|
|
|
统计和规范中的误区 |
老师的一篇关于统计和规范的文章。 |
|
|
|
|
现代汉语“名+名”组合的统计分析 |
词语搭配能力的一个尝试。 |
|
|
本文以大规模经过分词系统标注后的真实语料的统计数据为依据,对名词特别是二元“名+名”组合的组合能力以及合法性进行了初步的统计分析。 |
|
现代汉语“本位”的演变 |
随着《马氏文通》的出版,汉语语法的研究历史也随之开始。 |
|
|
纵观一百年来语法研究的历史,“本位”之争一直没有停止过。所谓“本位”是指语法学家为进行研究而设立的立足点。很显然,英语语法研究的“本位”是WORD。但汉语的“本位”却一直争论到现在... |
|
|
|
 |
 |
现代汉语 |
|
>>>> |
语法化研究 |
|
|
试析“雪花大的有梅花那么大”—兼议“有”字性质 |
本文首先考察了一个“有”字句实例的析句过程, |
|
|
进而深入下去,以原型范畴理论为逻辑背景,对“有”字的性质,尤其是“有”在“名1+(没)有+名2+形”这一特定格式的性质进行了一些初探,提出“有”字性质的过渡性特点。 |
>>>> |
词义研究 |
|
|
对于词义的几点思考 |
什么是词义? |
|
|
两千多年来,一直是人类思想史的中心问题之一,更是当代语言哲学的两大中心课题之一。 |
| |
|
|
>>>> |
词语属性思考 |
|
|
关于属性空间的几点思考 |
从理论上说,分类法和属性描述法对于认识事物是等价的。 |
|
|
但由于汉语分类至今在汉学界还是一个老大难问题,汉语词类划分的标准到底有哪些……加上词语的语法特征又非常复杂,即便是属于同一类的词语,内部语法特征也并不一致,存在很大的差异。在这种情况下,如果单纯采用一般语言学著作的分类法,势必会丢失很多有用的语法信息。但单纯的属性描述似乎也并不可行。 |
|
再谈“兼类” |
兼类在语言研究和信息处理中的困难——兼类是永远的痛。 |
| |
|
兼类问题产生的原因和背景: 英语词类系统的形成、 汉语词类系统的形成和“西化”、
兼类的产生是中西结合的产物
兼类问题的分析: 逻辑上的荒谬、 静态能力和动态表现的关系
兼类问题的解决
|
| |
|
|