如何测量两个模糊集的概念概念之间的关系

 上传我的文档
 下载
 收藏
我是一名温州大学法律专业的大学生。我的性格偏于内向,为人坦率、热情、讲求原则;处事乐观、专心、细致、头脑清醒;富有责任心、乐于助人
 下载此文档
正在努力加载中...
一种模糊概念相似度的计算方法
下载积分:350
内容提示:一种模糊概念相似度的计算方法
文档格式:PDF|
浏览次数:44|
上传日期: 08:13:24|
文档星级:
全文阅读已结束,如果下载本文需要使用
 350 积分
下载此文档
该用户还上传了这些文档
一种模糊概念相似度的计算方法
官方公共微信您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
1.4模糊集的基本概念.ppt 145页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:350 &&
你可能关注的文档:
··········
··········
(6)岭形分布①偏小型②偏大型③中间型例建立(年轻人)的隶属函数。根据统计资料,作出其大致曲线,发现与柯西分布接近那么,可选柯西分布作为(年轻人)的隶属函数。下面根据年龄特征确定参数。25岁以下是绝对年轻,25岁开始(年轻人)的隶属度随年龄增大而减小衰变不是线性的。又因为30岁作为年轻人是最模糊的概念,可选参数3借用已有的“客观”尺度有些模糊集所反映的模糊概念已有相应的成熟的指标,这种指标经过长期实践检验已成为公认的对客观事物的真实的又是本质的刻画.我们可以直接采用这种指标,或者通过某种方式转化为隶属度.例设U是平面中一些图形的集合.设C表示圆的模糊集.对于每个u∈U,用u的边长l和面积s来刻画,即令ul,s如下定义C的隶属函数借用圆面积与边长的关系式给出了“圆”这一模糊集的隶属函数.这种模糊集在癌细胞识别上有着较好的应用.在经济管理、社会科学中,可以直接借用已有的尺度(经济指标)作为模糊集的隶属度.例在论域U(设备)上定义模糊集A“设备完好”,以“设备完好率”作为隶属度来表示“设备完好”这个模糊集是十分恰当的.在论域U(产品)上定义模糊集B“质量稳定”,可用产品的“正品率”作为产品属于“质量稳定”的隶属度.在论域U(家庭)上模糊集C“贫困家庭”,可用Engel系数作为隶属度来表示家庭贫困程度.4二元对比排序法对于有些模糊集合,很难直接给出隶属度.但可以通过两两比较,确定两个元素相应隶属度的大小.先排序,再用数学方法加工得到隶属函数.5德尔菲法对于不便使用模糊统计的模糊集,如果它主要是专家的经验和判断的反映,可以采用德尔菲法即专家评分法.6综合加权法对一个由若干模糊因素复合而成的模糊概念,可以先求各个因素的模糊集的隶属函数,在复合出模糊概念的隶属函数.7集合套法二、确定隶属函数的注意事项隶属函数的确定虽然带有较浓重的主观色彩,不过还是具有一定客观规律性与科学性.因此,应注意到:从实际问题的具体特性出发,总结和吸取人们长期积累的实践经验,特别要重视那些专家和操作人员的经验.虽然隶属函数的确定容许有一定的人为技巧,但最终还是要以符合客观实际为标准.在某些场合,隶属函数可通过模糊统计试验来确定.一般来说,这种方法是较为有效的.还可以用概率统计的处理结果来确定隶属函数.在一定条件下,隶属函数也可以作为推理的产物,只要实验符合实际即可.有些隶属函数可以经过模糊运算“并、交、余”求得.如中等个子的隶属函数就是有矮个子和高个子的隶属函数的余运算而得到的.在某些场合,用二元对比排序的方法可以确定隶属函数的大致形状.在许多应用中,由于人们认识事物的局限性,因此,开始只能建立一个近似的隶属函数,然后通过“学习”逐步修改,使之完善.判断隶属函数是否符合实际,主要看它是否正确地反映了元素隶属集合到不属于集合这一变化过程的整体特性,而不在于单个元素的隶属度数值如何.1.6模糊集的模糊度一个模糊集的“模糊程度”如何,是我们处理模糊概念与模糊信息是十分关心的指标.刻画模糊集的模糊程度的数量指标称为模糊度.对于U中的一个因素u,若隶属度Au接近1,则肯定的程度高;若Au接近0,则否定的程度高;若Au在0.5的周围,则u对于A的隶属程度最为模糊.模糊度的公理化定义模糊度几点说明:条件1说明普通集是“确定性的”,其模糊度是0;条件2则进一步要求模糊集的模糊度的大小关于Au0.5的模糊集A是对称的,即应具有相同的模糊度。条件4中说明Au1/2的模糊集是最不确定的,其模糊度是1.当论域Uu1,u2,…,un有限时,常见的几种模糊度计算公式L-模糊度:R模糊度:模糊熵:注:在有限情形下,LA,RA,HA都取值于[0,1]之中.模糊度例题例1:设而试计算:解:模糊度例题例2:设若试计算解:当URn时,模糊熵定义为课后练习1.课后练习2.3.课后练习4.5.6.课后练习7课后练习*Aλ就是一个集合套扩张原理与分解定理已知映射f:X?Y,模糊变换A?fA,反向模糊变换B?f-1B,称fA为A的像,f-1B为B的原像。扩张定理也可用分解定理形式给出注:事实上以上结果给出的是fA,f-1B的分解定理。1.5隶属函数的确定隶属程度的思想是模糊数学的基本思想.隶属度及整个隶属函数的确定,无论从理论上还是实践上都是模糊数学及其应用的基本而关键的问题.对于隶属度的确定,有统计学派与非统计学派两种不同的观点及处理方法.然而事实上,模糊集的种类是极其复杂的,这取决于造成模糊性的原因的多样性.我们没有必要单一的坚持某个学派,而应该兼收并蓄、对症下药.论域U上的模糊集的隶属函数就是U到[0,1]的一个实值函数.概念,是客观事物本质属性在人脑中的反映.由于它是反应性的东西,人们往往怀疑隶属度的客观意义,甚至怀疑模糊数学的科学性。模糊性的根源,在于客观事物的差异之间存在着中介过渡,存在着亦此亦彼的
正在加载中,请稍后...论文发表、论文指导
周一至周五
9:00&22:00
面向文本的领域本体学习方法与应用研究综述
2011年第23期目录
&&&&&&本期共收录文章20篇
  [摘要]根据本体构成的要素――概念、概念间关系、公理,结合文本的非结构化特点,总结梳理当前从文本中自动获取领域本体概念及概念间关系的主要方法的思路、特征和适用范围,并运用两个实例解析面向文本的领域本体学习的具体步骤和实现过程。最后讨论存在的主要问题和进一步的研究方向。   [关键词]领域本体 本体学习 文本 概念 关系   [分类号]TP182   本体的本质是概念模型,通过概念模型对信息作完全的形式化描述。它描述某个领域甚至更广范围内的概念及概念之间的关系,使得这些概念和关系在共享的范围内具有大家认可的、明确的、唯一的定义,这样,人机之间以及机器之间就可以进行交流。领域本体用于描述特定专业领域,定义该领域的概念和概念之间的关系,描述该领域的基本原理、主要实体和主要活动,提供领域内部知识共享和知识重用的公共理解基础。   近年来,随着语义网运动的发展,作为基础性工作的一部分,实现自动或半自动构建本体逐渐成为一个研究热点,而用来实现本体元素自动获取的一系列方法和技术称为本体学习。   按照数据源的结构化程度,本体学习技术分为三大类:基于结构化数据的本体学习技术、基于半结构化数据的本体学习技术和基于非结构化数据的本体学习技术。数据库中的数据是典型的结构化数据,而XML、HTML、DTD等包含隐含结构的数据称为半结构化数据。非结构化数据是指没有固定结构的数据。文本数据是非结构化数据,大量存在于Web中,是用来构建本体的最重要的数据源。因为现有的研究方法在处理半结构化数据时,通常按照纯文本对待,所以一般将基于非结构化数据的本体学习和基于半结构化数据的本体学习统称为面向文本的本体学习。   本文将概念、概念间关系视为本体的构成要素,对比分析相关的面向文本的本体学习的一系列方法和技术,并结合实例阐明领域本体学习的步骤与方法,进而讨论当前领域本体学习技术存在的主要问题和进一步的研究方向,为构建领域本体理清思路。   1 面向文本的领域本体学习   根据本体的定义和结构,本体学习的任务可分为三部分:①概念的自动获取;②概念间关系的自动获取;③公理的自动获取。现有研究主要集中于概念和关系的获取,公理的获取研究较少,所以本文着重讨论前两者。   首先,自然语言处理技术(nature language process-ing,NLP)是面向文本的本体学习的基础,这是因为文本数据缺乏一定的结构,要使机器能够自动地理解文本并从中抽取出所需要的知识,则必须利用自然语言处理技术,如词性标注、词义消歧和短语切分等技术对其预处理;然后,在此基础上,利用基于统计、基于规则或机器学习等方法从中获取知识。   1.1概念获取方法   领域概念是领域知识在文本中的外在表现,是在特定领域内具有语义的词或短语的集合。领域概念的获取就是从领域文本集合中抽取最能够代表该领域概念的概念集合,这个过程包括从领域文本中抽取术语集合、词性规范以及领域概念的筛选和确定。   1.1.1基于词典的方法 专业词典和叙词表等经过领域专家多年的有序组织,涵盖了学科领域内的表达事物相关概念的大量词汇。同理,也可以利用停用词表识别无用的常用词。以此为依据,从文本中抽取领域概念或过滤无用词汇,准确高效、简单易行,国内外有很多成功的实践,但叙词表和词典的维护及更新比较缓慢,词汇覆盖面有限,所以经常作为一种基础性方法获取基本概念,需要进一步结合其它方法进行扩充。   1.1.2规则方法 基于规则的方法是指利用人工总结的语法规则、词法规则、语义规则等获取概念。例如,可以使用标注工具对文本进行词性标注,按照词语的形态特征从语料中提取术语。该方法实现比较简单,如果制定的规则完备、合理,则能达到一个比较高的准确率。但是,规则的编写需要具有语言知识和语言学背景的人员,人力资源昂贵,并且规则的制订往往要依赖于具体的语言、领域和文本格式,系统缺乏适应性,不易移植。   1.1.3统计方法 基于统计的方法是近年来常用的方法之一,它利用一些简单的统计量来衡量几个连续字符组成词的可能性。常见的简单统计量有词频、互信息、熵和C-value等。通过计算领域相关度和领域一致度等方法,对候选术语集进行过滤,获取真正的领域概念。基于统计的方法的缺点是容易产生数据稀疏现象,一般适合于输入数据不再改变的系统,即非增加的本体学习系统。      1.1.4机器学习的方法 机器学习的方法需要首先建立一个学习模型以模拟一个特定的任务,然后在已标注的训练集上应用学习算法,在得到一个推广性能最好的学习模型之后,即可从文本中抽取概念。   基于机器学习的方法是目前一种较为有效的概念获取方法,不再依赖于领域专家,只需要有一定专业知识的人对语料进行人工标注,而且能够将概念获取问题转换成丰富的机器学习算法所能解决的问题,但是机器学习的方法会产生噪音数据,影响结果可信度。   1.2概念关系获取方法   不同的组织和研究机构,给出了不同的语义关系类型。联机英语词汇检索系统WordNet将概念之间的语义关系分为同义关系、反义关系、相似关系、上下位关系、整体一部分关系、继承关系和因果关系;微软公司开发的概念知识库系统MindNet把语义关系标记为24种不同的语义类型,包括同义关系、部分关系、属性关系、方式关系、意图关系、目标关系等;知网HowNet共定义了16种语义关系,如上下位关系、同义关系、整体-部分关系、工具-事件关系。   杜小勇等在获取本体中概念之间关系时主要考虑两种类型的关系:分类关系(taxonomy)和非分类关系(non-taxonomy)。分类关系主要指概念之间具有典型的分类结构,将概念组织成树状层次结构,每一个树中的概念都与其它概念构成上下位关系,体现了概念间的包含关系;非分类关系又称为非层级关系,主要指概念之间不具有典型的分类结构,但是概念之间具有一定的联系,反映了概念间的某些语义关系,类型多种多样,非分类体系主要考虑相关概念对的提取。概念间关系的常用获取方法有:基于语法模式的方法、基于概念聚类的方法、基于关联规则的方法、基于词典的方法、机器学习方法、形式概念分析法,或者这些方法的混和。   1.2.1基于语法模式的方法 基于语法模式的方法是在分析处理大量相关文本的基础上,发现频繁出现的语言模式,通过将文本中的单词序列与模式依次进行匹配判断,进而识别语义关系。这类方法的主要缺点是需要事先获得关系模式,但随着领域的变化可能要重新对其进行设计;而且模式的表示形式如果过于“严格”或“宽松”,都将会影响语义关系获取的召回率或精度。   1.2.2基于概念聚类的方法 聚类的实质就是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。大多数聚类方法都具有特征选择或特征抽取、聚类算法设计或选择、聚类确认和结果解释4个基本步骤。利用概念之间的语义距离,对概念进行聚类,同一类簇中的概念将具有语义近似的关系。同时,也可以进行层次聚类,聚类的结果就是概念间的分类关系。关于概念层次聚类的研究有很多,但多存在一个共同的局限性,即只能得到概念间严格的层次关系。   1.2.3关联规则挖掘的方法 数据挖掘中的关联规则方法是用于获取概念间的非分类关系的常用方法,基本思想是如果两个领域概念经常出现在同一个语法单元,即出现在同一句子、同一段落或同一文档中,则这两个概念之间必定存在着一定关系。而它们之间联系的紧密程度和它们所在的语法单元有关。这个语法单元的语义内在聚合度越紧,那么这两个概念之间的紧密程度越高。但是大部分方法都停留在判断两个概念之间是否存在关系的层次上,难以进一步确定拙取出的概念之间具体是什么关系。   1.2.4基于词典的方法 很多词汇词典中定义了同义词、近义词和反义词等知识。叙词表也可视为语义词典,叙词之间的关系利用等同关系、等级关系以及相关关系三种语义关系来描述,可用来获取本体中概念间的分类关系。   1.2.5机器学习方法 与概念获取一样,人们对概念关系获取问题建立了一个学习模型,力求能把语言知识和统计规律相互融合在一个模型框架中,通过对大量真实语料的学习来确定模型的参数,进而解决概念关系获取问题。   1.2.6形式概念分析法 形式概念分析(formal con-cept analysis,FCA)是应用数学的一个分支,它建立在概念和概念层次的数学化基础之上。目前FCA的方法已经大量运用在概念聚类、数据分析、信息检索、知识发现和本体工程的应用之中。其概念通过属性来描述,能够从给定数据中提取出隐含概念以及概念之间的关系,形成概念模型(概念格),并用符号形式化的方式来表现,因此,采用FCA的方法可以帮助构建本体。   FCA的优点在于覆盖度比较大,而缺点是准确度不高而且容易产生数据稀疏现象。当前FCA适用于构建轻量小规模领域本体,不能自动提取除偏序、层次、相似等关系之外的复杂的语义关系。   2 实例   2.1简单实例   此实例使用统计方法提取概念,利用基于关联规则与模式匹配相结合的方法,提取概念问的分类关系。基本框架如图1所示:   其框架可分解为如下步骤:   ?收集领域文集和一般对比文集。   ?文档预处理。应用NLP技术进行分词。   ?抽取候选术语集。候选术语的提取采用基于统计的方法,计算术语的频率。通过设置术语在领域中的出现频率阈值过滤出现频率很低的词或短语。对于一些在各个领域中出现频率特别高但不能反映领域专有知识的常用词,可以通过停用词表把它们过滤掉。   ?过滤候选术语集生成概念集。通过选取,虽然从候选术语集中除去了常用词和出现频率较低的词,但集合中还包括一定数量的与领域无关的词,它们常常出现在多个领域文集中但又不在停用词表中,这时必须对候选术语集进行过滤。采用领域相关度和领域一致度相组合的方法来对候选术语集进行过滤,以生成真正的领域术语。这种方法需要对比文集做支撑。   ?通过关系提取算法抽取分类关系并建立分类层次体系。利用基于关联规则与模式匹配相结合的方法提取本体概念间关系,其基本思想主要是:首先利用关联规则中的算法,如Apriori算法,在领域文集中发现频繁项目集;然后,利用由频繁项目集产生的关联规则搜索领域文档集,找出含此关联规则的句子,发现其中的模式,并人工排除不是分类关系的模式;最后再用模式匹配的方法抽取出领域文档集中的分类关系并建立概念间的层次关系。   2.2复杂实例   主要研究如何从大量专业文本中自动获取领域概念及概念间三种基本关系的方法。   2.2.1概念的自动获取 利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题。处理流程包括三个步骤:   ?预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集。首先利用自动分词方法和最大词串匹配算法等自然语言处理技术得出候选领域概念集。然后,对候选概念集进行人工标注,若是专业术语标注为正例,否则为负例。   ?训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型。在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型。   首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本。然而这样的样本向量空间维数非常高,给计算带来巨大压力。可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数。   其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用。这里的难点在于非平衡数据处理问题,即在候选概念集中,真正领域概念的个数远远小于非领域概念的个数,也就是说,样本中正例数据与负例数据分布极度不均匀。在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法。在非平衡数据下,前者容易使分类器误将负例判断为正例;而后者会导致漏选一些有用的负特征。   最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型。项目选取了目前在文本分类中获得较好结果的4种分类算法:决策树、朴素贝叶斯、支持向量机和感知器,训练得出4个分类器。   ?分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语。   2.2.2概念关系获取 概念之间存在着各种不同形式的关系,此示例主要研究如何从文本中自动获取两个概念间的三种最基本的语义关系,即:①同义关系;②上下位关系:也称为从属/上属关系,子集/超集关系,或IS-A关系;③整体-部分关系。   领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体-部分关系三类词对。通常多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解。具体处理流程包括三个步骤:   ?预处理:利用前文方法中获得的领域概念集,检索领域语料。查找同时含有两个或两个以上领域概念的句子。然后将句子中的领域概念两两组对,形成候选关系词对集。   ?训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型。   在获得候选领域概念关系词对集后也需要将这些特征词对表示成计算机可以识别的格式,以训练分类模型,得到分类器。通过对标注语料的分析,选用词序特征、词形特征和上下文特征这三类特征,采用相关标引方法,组成特征向量表示每一个候选词对。   在将候选概念关系表示成特征向量之后,使用分类算法,从标注的训练数据中,学习一个推广性能最好的分类模型(分类器)。项目结合朴素贝叶斯和感知器两种分类算法的优点,提出混合分类算法,用以训练领域概念关系分类模型,取得较好的效果。   ?分类:将新文本中的所有可能关系词对分别对应于同义关系分类器、上下文关系分类器、整体一部分分类器。经过归一化处理后,选择分值最高所对应的类别作为该词对的最终类别。   3 当前存在的主要问题及进一步的研究方向   经过几代人的努力,与本体自动构建相关的人工智能、自然语言处理等计算机技术已经得到长足的改进和完善,但是,其发展速度明显落后于网上文本内容的增速。在语义网尚未普及、本体和相关元数据相对匮乏的现阶段,我们还是要在这条艰苦的研究道路上继续探索,不断提高本体学习的自动化程度,把语义网运动的蓝图演变为现实。   本文按照领域本体概念和概念间关系这两个构成本体的核心要素,分层次探讨现阶段面向文本的领域本体学习的常用方法以及各种方法的优劣性和适用范围。在验证实例中,详细阐明了自动构建领域本体的思路、步骤和具体方法,并对实验结果加以评价。应当指出的是,在实际应用中不必单一使用某一种方法,为了达到更好的本体学习效果,可以将多种方法相结合,或者在构建核心本体的基础上,再运用其它方法对本体进行增量。   3.1文本分类技术   文本数据是Web中大量存在的一类非结构化的数据,也是用来构建本体的最重要的数据源。根据文本的内容或属性,由计算机自动分类,提取领域概念和概念之间的关系,是形成数据语义的一种有效的辅助手段。虽然文本分类技术近年来得到快速发展,在文本特征表达、特征降维、分类器设计、语料库方面作了大量工作,但仍然面临着很多问题。目前常用的文本分类方法在分类过程中的特征选取、权重计算和分类算法等方面,都存在一些不足之处和局限性。例如当类别规模增大时,准确度会急速下降,以至于分类结果不可用,而且在处理复杂类别的结构时也面临着巨大挑战。可见,对文本分类问题的研究是一个漫长的过程,其中,形成一种成熟的领域概念获取方法是一个长期目标。   3.2概念间关系获取   领域概念关系获取的正确性和难易程度,除了技术因素之外,还依赖于所处学科的复杂性以及领域知识所研究的范畴和所处层次。   在构建学科领域本体时,对于概念关系明确、严格的理工科类,如计算机科学,关系的提取相对容易处理。而对于经济学、管理学等交叉学科,概念的分类和界定存在很大困难。   同时,领域知识所研究的范畴和所处层次也有很大差异,这也是影响领域概念关系正确获取的一个关键因素。在《软科学手册》中,知识被分为0级、1级、2级知识:有关领域里的事实、定理、方程、实验对象和操作知识等常识性知识和原理性知识称为“0级知识”;经验性的知识(如经验规则、含义模糊的建议、不确切的判断标准等)称为“1级知识”;关于如何运用上述两级知识的知识,称为“2级知识”。显然,以当前的技术水平构造1级以上较为复杂的领域本体,将存在很多难以克服的困难。   因此,在不同的研究领域,因为研究方向不同,研究的侧重点也应有所不同。例如,在计算机科学领域,关注的是技术和方法的创新、改进与完善。而在数字图书馆领域,则应综合领域知识的复杂度、方法技术的特点与成熟度等多种因素,从不同层次建立相应的研究策略。   3.3推理   首先,强大的本体推理功能需要足够的概念及概念间的关系进行支撑,因此,相对而言,这方面开展的研究较少。其次,在实际应用中,很多概念不是一成不变的,相关的逻辑和规则同样需要不断调整,用以描述的本体也必然随之而变化。在一系列不确定因素基础之上如何采取有效的策略进行推理,使其结果的可靠性能够达到可信服、可重用的程度,将会成为更突出的问题。因此,有关本体推理功能的理论研究和实际应用也许需要更长的时间。
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。}

我要回帖

更多关于 模糊层次分析法概念 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信