为什么nlp汉语语法学史稿pdf家写二进制规则

为什么 Google 翻译只重算法不重语言学的语法结构和规则?
谷歌翻译团队的工作地点是在该公司位于硅谷的总部园区,这支队伍的规模已经扩大了很多。在这个团队中有几位德国计算机科学家,但却连一个纯粹的语言学家也没有,就连奥驰本人也并非真正有天赋的语言学家。相反的,奥驰说道:“我在学习语言时总会遇到麻烦,这也正是机器翻译的美妙之处:最重要的事情是擅长数学和统计学,然后又会编程,那就可以了。” via /a/394.htm
【知乎用户的回答(75票)】:
啊,这是界争论了很久的问题了,所谓的理性主义(基于规则)和经验主义(基于统计)之争。
记得看过一本书上详细的讨论过这个问题,详情可以移步这篇文章:
总结来说,基于统计的方法有如下好处,基于大量数据基础,有很好的鲁棒性,不需要真正理解语言就可以做出相当好的结果。由于人类语言的复杂性,去枚举一个语言的语法规则,是耗时费力的,以及鲁棒性比较差。
就机器翻译来说,现在的基于统计的平行文本技术已经能够产生很好的结果了,而且是独立于语言的。Google用一个通用的算法就可以在全世界各种语言中互相翻译,而不需要专门为每一种两两语言互译请专家来编写系统。试想,人工去为中译英制定规则,这需要考虑到词词对应,语法对应,以及考虑到上下文来解析词语的二义性,这很难依靠基于规则的方法来实现。
另注:平时接触到的当前自然语言处理系统中,真正由人编写规则已经是相当相当少见了,绝大多数都是基于大规模文本库训练出来的,根据概率论自动获取所需要的参数。而且我始终觉得自然语言处理的算法中,机器不是尝试去理解人类语言,而是去努力找出最符合人类语言习惯的答案。
再注:后来寻思了一下,似乎这所谓的两个主义之争,就只有在那本书上看过(有人提到过吴军博士的《数学之美》也提到过这个),其他地方也没记得提到过这个。我觉得吧,实际中,根本没有这种所谓上纲上线站队的,只是不同的研究团队会从不同的角度出发(当然现在基于统计的还是主流),对于同一个问题提出解决方案,反正很多问题都是有硬性的测试集评判标准的,欢迎各种方法,学术界百花齐放得乐呵呵呢。
【张瑞的回答(7票)】:
首先指出,语言学是以语言作为研究对象的一门学科,探索语言的结构和应用。
换言之,语言学是依附在人们常规的语言使用之上的。我们怎么使用语言,语言学家只能试着去理解,而无法指导我们如何使用。制定规范也只能在一定范围内影响语言的使用方法。
(下面的举例仅仅针对中文和英文。)
比如印象最深刻的“明月半墙”,语言学无法给出一个固有结构来“套”这个用法,但所有人都能看懂这句话,语言学家就要去研究、解释。
人对语言的使用本身也是基于经验主义,同时在不断更新词库和用法。记得当年第一次在听到有人跟我说“记得短信我”时那种惊讶——原来还可以这么说!
语言学里的结构主义本来就是舶来品。大家熟知的(其实就是我)就是英语——严格的区分出了词的角色,比如computer、compute、computation等。在中文里,都不会依靠严格的形式来完成语义表达。
例如“喂猪了吗” “猪喂了吗” “喂了吗猪”
新东方的范亚飞老师提到“英文是形合,中文是意合”。
现在看来,应该是说中文具备了面向对象的特征。
例如上述喂猪的例子,在两人对话情景中,是绝对不会理解为“猪喂人”,只会理解为“人喂猪”。猪有“进食”这个方法,人有“进食”、“饲喂”等方法,通过“喂”这个action连结在了一起。
为什么不存在“猪喂人”?基于全文统计(也就是之前接触过的所有场景),不存在猪具备“喂”这一方法,所以只能是猪被喂。
有“人被猪喂”吗?有,比如特定小说里,也就是特定上下文场景形成的特定用法。在读这么一篇小说的时候,也许你会接受这么一种所谓设定,但脱离开这种上下文环境,依然只有“人喂猪”。
还有一个值得注意的现象是,网络中出现的新词能否成为口语也取决于使用热度(即频率),例如“节操碎了一地”。“碎了一地”是一个基于我们以前常识的理解性用法或者说语料积累,节操本身属于抽象概念,并不是实物,无法碎。但在我们不断的口语化过程中,节操也具备了实物的特性,因此其他方法也就被支持了。例如“节操被狗吃了”、“节操掉了”,如果在这里说“节操被放在牛仔裤口袋里坐烂了”,大家也可以快速理解。
由此可以看出,单就汉语来说,我们的种种语言现象是基于经验主义来学习和扩展而非结构主义。
翻译的本质是理解另一种语言所要表达的含义。而这种含义的映射其实也是基于经验的积累实现。中国人把经常看到黄皮白壤的叫做“香蕉”,英国人把经常看到的黄皮白壤的叫“banana”。两种人坐在一起瞎比划一下,就在各自的小本子上记上“香蕉=banana”,也就形成这么一种映射。
翻译自始至终就是个统计的活,怎么就跟语言学扯上关系了呢?
===========再补一个结构主义没法解释的问题===========
“三个包子我就吃饱了”
“三个包子就把我吃饱了”
“去了几十号人,好不热闹”
“去了几十号人,好热闹”
【匿名用户的回答(8票)】:
因为这句话吗?
我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。
---------------------贾里尼克
【知乎用户的回答(1票)】:
语法结构和规则,本身也是总结出来的,用来解释现有语言的,并不具备更高的约束力。
【CArt的回答(2票)】:
在现阶段,谷歌翻译的目的并不是为了取代人工翻译,也不可能取代。
它现在通过机器学习和大数据来“不精确”的进行翻译,而不去理会语言学的规则,确实可以一定程度提高翻译的精准度。但是,这是有瓶颈的,如果它想更进一步提高翻译的质量的话,不理会语言学本身而只靠大数据是不可能的。
其实从google的众多行为来看,它总认为技术可以决定一切,希望它以后不会栽到这里。
【何云的回答(1票)】:
说实在话,现在的阶段,用语言学解决Google的问题确实不大现实。
语言是智能的包装,因为语言一定程度上决定了一个人思考问题的方式。现在的智能的模拟主要还是采用概率模型。但是概率说白了是对问题的近似,也就是说我无法直接解释某些问题,只能用概率来近似一个结果,所以说人工智能离解决还很遥远。同样的,作为智能的包装,语言,离解决也非常遥远。在这种情况下,用语言学来进行Google的业务不大靠谱,只能用概率模型来绕个弯获得好的结果。
【吴陆陆的回答(1票)】:
如果语言学的规则可以穷举或者接近穷举的话,那么也不用Google实现了.Google做的应该是基于统计和机器学习等技术训练和积累出一套语言学的规律,不精确,但是大部分情况下是合理的,并且会通过知识积累和算法改进不断增强.
【舟扬-Joey的回答(1票)】:
推荐看一下吴军的《数学之美》的几个章节,大致把语言识别研究的发展给概述了一下,还讲了基于概率的模型是如何神奇的提高正确率的,当然不可能完全识别。60、70年代的时候主要是做语言的语法、结构分析,但是当一个句子逐渐变得复杂以后,就很难再用语法分析了,不可能针对每一个句子都写一条语法的。
【石头们的回答(0票)】:
因为语言学的语法结构本身也是人为从大量语言样本中总结出来的。所以只要算法足够强大或者鲁棒,效果是一样的,甚至比人为更灵活些
【Franklin Yan的回答(0票)】:
Google没有语言学家就是"不重语言学的语法结构和规则"?Google有一个项目就是和各大图书馆合作扫描图书。此项目对于Google来说一举三得:建立Google图书项目;为验证码提供资源;以及最重要的,创建其他公司无法匹敌的语料库
【蒹葭苍苍的回答(0票)】:
Google试图用算法来代替语言学家。
语言学家尽管水平高超,但是仍然难以用人的有限智力穷举出一个完备的规则体系用于处理自然语言。
可以考虑计算机语言做个比较。计算机语言是非常规范的描述力受限的语言。就是这样的语言,定义语言规范都是很麻烦的事情,一本打印出来的c++语言规范就是一本比史记还厚的书。
因此,由人类自己定义自然语言的规范是几乎不可行的。所以,我们诉诸于统计学和机器学习理论,把这些复杂的语言细节隐藏在相对简洁的模型里。
【王帅的回答(0票)】:
谢谢邀请。我不做这个方向。有一门课而已, 学完就学完了。抱歉 @David Chang
【钟典的回答(0票)】:
我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。
---------------------贾里尼克
这句话我也在吴军的《数学之美》中看到过。
其实人们自然而然的都会想到用语法规则来优先处理语言识别问题。毕竟它是语言,有语言就有语法,而且我们在自然语言语法中走的时间更长、深度更大。
所以在语言识别界的最初,科学家们都试图采用这种方法。但是后来他们就发现语法规则很难用数学或者说编程语言描述,而且英语全部总结起来或许有超过十万条规则,他们的应用范围还都不一样。所以这会导致识别系统的臃肿和错误率高。
后来科学家们发现了统计和概率应用到这上边来省心而且效果不错,所以就导致了现在的局面。
当然未来的发展趋势,应该还是以算法为重。不过也有其他的可能性。
【知乎用户的回答(0票)】:
《数学之美》有说明。
【GianniDesign的回答(0票)】:
谷歌自己应该也想,但是机器语言要想做到真正的人工智能并且普及毕竟还有一段路要走
【匿名用户的回答(0票)】:
选自《In The Plex:How Google Thinks, Works, and Shapes Our Lives》Part1 Section 3,由天涯网友翻译
在Google的任务清单上比较靠前的另一件事情是翻译,即把网络上数十亿的文字翻译成世界上任何用户的母语。2001年,已经支持26种语言。Page和Brin相信像语言这种人工的障碍不应该阻挡人们使用信息。他们的想法和机器翻译先锋Warren Weaver异曲同工,他说,“当我看一篇用俄语写的文章时,我说,‘这就是用英语写的,只是用一些奇怪符号进行了编码,现在我要破解它。’”Google的想法就是破解这个星球上的任何一种语言。
在在线翻译方面之前有过不少尝试,1995年第一次出现了一个叫做巴别塔之鱼(Babel Fish)的服务,比较引人注意。Google自己的项目开始于2001年,核心翻译系统是来自另外一个公司的授权——基本上和Yahoo和其他竞争者都是在用这套相同的系统。但是这个系统系统经常不准确,看起来被用来翻译的词像是从字典里掷标枪挑出来的。Sergey Brin在2004年的一个会议上强调了这个问题,当时他展示了Google对来自南韩一封信的翻译,信是一个对Google搜索技术很有热情的粉丝写的,内容是,“生鱼片穿着希望之鞋,Google绿色洋葱样!”(The sliced raw fish shoes it wishes. Google green onion thing!)
其实在Brin对这封信的翻译表示失望时,Googley已经确定了一个雇佣人选,他可以领导公司在翻译方面的工作——这在某种意义上也加强了Norvig刚到Google时看到的重点。这个人就是Franz Och,他在家乡德国的RWTH Aachen大学计算机科学学院攻读博士学位时就关注机器翻译,之后他在Southern California继续他的工作。2003年他在Google进行了一次面谈后,公司给了他offer,按时Och最大的担心是Google主要是一个搜索公司,对机器翻译的兴趣可能只是玩玩。和Larry Page的一次谈话消除了这些顾虑。Page告诉他,Google立志组织世界上所有的信息,而翻译是一个必不可少的部分。Och不太确定Google在这个系统上能走多远——你们真想做20种语言的结对互译吗?(换句话说,如果你的系统有20种语言,这个系统能把其中任何一种翻译成另外任意一种吗?)这将是空前的项目。Page让他确信Google将会在这方面大力投入。“我说那好吧”,Och说,他在2004年4月加入了Google。“现在我们有506种语言结对互译,所以看来这一切都很值得。”
早期的机器翻译通常在开始由对两种语言都很懂语言专家参与,他们会整理每种语言的规则和结构,这样就可以把原始输入打散,在用第二种语言组合起来。“这很耗时,很困难,因为自然语言太复杂多变了,还有很多细微的差别”,Och说。不过在1980年代后期,一些IBM计算机科学家设计了一种新的方式,Och很喜欢。“基本想法是从数据中学习”,他解释说,“给一个计算机大量的单语言文本,计算机应该能自己发现语言里面的结构信息。”就是给计算机大量的数据,让他(这里用Och的人格代词吧)去思考。本质上Google的系统为Och小组测试的每种语言创造了一个“语言模型”,下一步就是处理已经翻译过的不同语言,让计算机找到隐含的算法,知道计算机把一种语言转换成另一种。“有特定的算法可以学习单词和句子如何对应,文本中的细微差别,从而产生翻译。关键在于,你拥有的数据越多,这个系统的质量越高。”Och说。
最有用的数据是成对的文档,其中一个已经很好地翻译成了另外一种语言。在有Internet之前,这种翻译材料的主要来源就是联合国的文档,这些文档已经被翻译成多种语言。但是Web造就了一个惊人的宝藏——Google的索引让它的工程师很容易就可以挖掘出数十亿的文档,找到甚至是最隐晦的翻译,比如把一些文档和博客从一种语言翻译成另外一种语言。甚至一个业余的翻译也能提供一定程度的知识,不过Gogole的算法能够发现那个翻译最好,使用的还是Google用来确定网站重要性相同的原则。“在Google”,Och说,用最直白的表述,“我们有很多数据,也有相应所需的计算资源,这样我们就能建造非常非常非常好的系统。”
Och和一个小组一起,用2004年下半年到2005年初的时间建造了这个系统,做出了算法。在后面几年,实际上Google发布一些小的改进,并把机器学习中最好的思想整理在一起,本质上支持了后来成为公司人工智能要塞的项目。Och的官方身份是Google研究小组的科学家,但是Google对研究的指导思想是,从科研到实际产品实现需要做到零距离。
Och和他的同事知道他们可以使用空前数量的数据,他们从头开始创建一个全新的翻译系统。“我们做的一件事是构造非常非常非常大的语言模型,比人类历史上任何人曾经构造的都要大。”然后他们开始训练这个系统。要测量进展,他们使用了一个统计模型,给一系列单词,系统可以预测下一个单词是什么。每次他们都把训练数据加倍,在衡量结果中成功率的指标上他们得到了百分之零点五的进步。“所以我们就多次加倍数据量。”为了得到合理的翻译,Och会说你可能需要给模型提供十亿个单词。但Google可不会止于十亿。
2005年中,Google的小组准备好参加国家标准和技术协会(NIST,National Institute of Standards and TEchnology)资助的年度机器翻译比赛了。开始时,每个参赛小组会得到一系列文本,然后接下来的几天让他们的计算机进行翻译,同时管理计算机对翻译结果进行评估和打分。由于某些原因,NIST没有把比赛搞成有卫冕冠军的那种,所以Och小心翼翼地,避免说Google是胜者。相反,他说,“我们的得分”比任何其他组的得分都高。”测试中的一个语言结对包含阿拉伯语。“我们小组里没有说阿拉伯语的人,不过我们的机器翻译做到了最好。”
因为必须要相应说母语的人,Google可以自由地对最隐晦的语言结对提供翻译。“你总是可以把法语翻译成英语,或者英语翻译成西班牙语,但是你能把北印度语翻译成丹麦语,或者把芬兰语翻译成挪威语吗?”
【自由攻城狮的回答(0票)】:
人工翻译需要考虑语境,很多意思都不能用机器语言直接替代的,在目前看来包括谷歌在内的几乎所有翻译工具都存在“误差”。解决这个问题,也是目前人工智能所研究的范畴。谢邀!
【Elin He的回答(1票)】:
谢谢邀请 Google的翻译毕竟非常粗糙 不可能达到人工翻译的标准 他们做的是机器翻译 只是从海量数据中提取信息找到共性 然后通过算法和程序来实现
【Bryan Zhu的回答(1票)】:
翻译不仅是一门科学,还是一门艺术。
举个简单的例子,谷歌什么时候能把下面的诗翻得哪怕有一句能要也行。
不要迷信机器的力量,增强艺术欣赏能力才是翻译发展的正途。
这也是谷歌这样做的根本原因,因为谷歌翻译本身的定位并非取代人工翻译,而只是为了做低级参考。
&&&&&本文固定链接:
【上一篇】
【下一篇】
您可能还会对这些文章感兴趣!
最新日志热评日志随机日志语义及概念体系在NLP中的作用
投稿人/作者: 网络转载
围绕着项目专家组为这次研讨会所确定的论题之一&语义及概念体系在NLP的作用&, 下面分3节进行论述。第一节回顾一下语义和概念体系在上个世纪90年代以前的基本状况;第二节介绍HNC对语义和概念体系问题的基本看法和取得的基本结果;第三节对HNC的句类分析技术作一个&管窥一豹&式的考察。
2.关于语义及概念体系研究的历史状况
&&& 下面引用四段代表性的论述,这些论述对语义及概念体系研究在上个世纪90年代前的历史状况论述给出了比较准确的概括。
假定语言L的全部表达式组成集合W={E1,E2,&En&},
怎样确定各个Ei的所指U={M1,M2,&Mn&}?
怎样确定各Ei和各Mi之间的关系,
亦即怎样确定映射法则(E)R(M),
&使W映入U和使U映入W?
然而W的成员的所指却更为缥渺多变,甚至无迹可求。
因为我们不知道U中有哪些基本单位,
也不知道有哪些复合单位,
所以,我们不知道U是不是可列集,
甚至也不知道怎样列举U的各个成员
以及U的成员应该用何种方式去表示。
&&& 论述1里的&假定语言的全部表达式组成集合W&显然是论述者心目中的语言空间,而&各个Ei的所指U&是论述者心目中的语义空间。这两个空间存在映射关系,这一观点论述者是非常明确的。但是 论述者认为 这个W空间(语言空间)缥缈多变,而那个U空间(语义空间)更为缥缈多变。为什么?因为存在着一系列的&不知道&:一个不知道(注:指引文里的第一个&不知道&语句,下同),两个不知道,三个不知道,四个不知道,这里还有一个隐含的不知道,总共是五个不知道。可以看出 这位论述者对语言空间W和语义空间U的研究前景都持悲观态度,更不用说两空间的相互映射了。
语义场分析和义素分析提出了一些而不是全部语义分析维,
只能用于有限的语义空间,
用于全部词语还远远不能胜任。
&&& 论述2不象论述1那样高屋建瓴,但比较中肯,可以说反映了语义学界的一种共识。
现代语法研究都遵循着从言语求取语言法则的研究途径
言语 =&&言语(传统语文学)
言语 =&&语言符号系统(结构主义语言学)
言语 =&&语言能力(转换生成语法学)
&&& 论述3对20世纪语言学研究主流的概括比较准确,现代语法研究确实都遵循着从言语求取语言法则的研究途径,这是语言学界的一个基本共识。但这里应该补充一点,那就是论述3中关于&传统语文学&的论点并不公正,特别是对中国的训诂学,看来论者对中国传统语言学的了解很少。这个问题虽然与本论题有密切联系,但该论点的历史背景十分复杂,这里就不作进一步讨论了。
&&& 从论述3可以清楚看到 20世纪语言学研究的主流是不涉及语义和概念体系的。在90年代我国语言学界感受到了这一不足,多位学者提出了语法、语义、语用三平面说,还有学者提出了语表、语里、语值小三角说。三平面说和小三角说都是对摩里斯的语言三维度说的回归,是语言研究目标的重大转向与进步。但这一转向在我国还基本处于方法论的探索期,语法、语义和语用三维度的实际研究并没有冲出原来的&自成独立王国&状态。
1. 语言规则描述的是规范的语言现象,
&&& 而实际的语言材料不都是合乎规范的。
2. 语言规则实际只是在统计意义上是成立的。
&&& 几乎所有语言规则都不能百分之百适用于一切语言事实。
3. 语言规则往往只能描写语言现象的主要方面,
&而细微的语言现象往往覆盖不了。
论述4的3项论点在语言学界和计算语言学界都享有极大程度的共识。论述4看起来几乎是无懈可击,与论述1有异曲同工之妙。
基于上面的4项论述,本论题可以说是处在前景相当暗淡的状态。论述1等于说:语义及其概念体系基本处于缥缈状态,而且也很难改变这个状态。论述2通过语义研究的一个侧面申述了对论述1的支持态度。论述3干脆把语言学的研究目标定位在语言的形式结构,对语义采取明智的回避策略,或作为句法分析的补充。论述4的统计转向主张十分明确,对语法学研究表面上采取了彬彬有理的态度,但&规则必有例外,实用价值有限&的中心论点是坦率的,这等于说作为语言学一部分的所谓&语义及其概念体系&不可能有什么大的作为。
这就是本论题在上世纪末面临的状况,前景似乎不容乐观。
规则之路确实很困难,但是科学探索总是在知难而进。实际上 几十年来 人们不断从五个方面来努力改变上面所说的困境。一是语言学研究向上述三平面的扩展,特别是语用学转向。第二是语料库语言学的兴起,第三是内涵逻辑语义学的进展,第四是词语网络研究的发展,最后是HNC的探索,它是对中国训诂学和以Schank先生为代表的先行探索的继承和发展。
3.&HNC的语义及概念体系概说
HNC的语义及概念体系基于以下三点假设:
第一 语言的本质或语言的本体是什么?这个问题很大,并没有现成答案。HNC是这样假设的,语言的本体是人类大脑里存在一个语言概念空间,这个空间的基本构成是概念联想脉络,这个联想脉络的形成是人类百万年进化的结果。这实际上是乔姆斯基先生的著名论点,不过他用的名称是普适语法UG。人类目前还存在大约6千种语言空间,但人类具有一个共同的语言概念空间,这是一个假设,但是必须做这样的假设,否则就会滑入论述1所说的飘渺之途。黑格尔先生说过,&哲学的开端就是一个假设&,HNC接受这一思路。
第二 对语言概念空间的描述研究,第一个目标就是要找出这个空间的描述基元。如果这个目标达不到,则语言概念空间的研究就仍然难以摆脱上列论述1所指出的飘渺困境。
第三 这个描述基元的构造必须采用计算机容易操作的符号体系,这个符号体系必须用关联性原则彻底替换自然语言符号体系的任意性原则。自然语言最大的弱点就是把本来互相关联的概念用不相关的语音和语形符号予以描述。语言概念空间的描述符号体系必须从根本上消除这一弱点。
HNC基于这么三点 着手考虑语言概念空间描述符号体系的构造。 这一描述显然要区分三个层面,第一是概念基元层面,它对应着自然语言的词语,其基本的特征是&7-2-1&;第二是句类基元层面,对应着自然语言的语句,其基本特征是&57-3192&;第三是语境基元层面,对应着自然语言的句群、段落及篇章,其基本特征是&7-57-7&。下面就来对描述语言概念空间三层面基本特征的这组数字的含义进行解释。
&7-2-1&,表示概念基元的基本类型。&7&表示7类抽象概念,&2&表示两类具体概念,&1&表示兼有抽象与具体双重特性的两可概念。具体概念直接对应着实实在在的东西,而抽象概念不能跟实实在在的东西直接对应。但并不是任何概念都具有要么抽象、要么具体的特征,有些概念具有抽象与具体的双重特性,例如任何描述物理属性的概念就是这样。
&7-2-1&既表示对概念基元基本类型的三分,又表达了每一基本类型的横向结构。这就是说 抽象概念具有7种横向结构,具体概念具有两种横向结构,而两可概念则只有一种。
7类抽象概念的第一类命名为主体基元概念,具有6个根节点,分别命名为作用、过程、转移、效应、关系和状态,故简称作用效应链。作用效应链是语言概念空间整体结构的核心,它不仅是概念基元层面的核心,也是句类基元层面的核心。这个问题下面还会谈到。
7类抽象概念里的第二和第三类是专门用于描述人类活动的概念基元,人类活动毕竟是语言描述的主体。为什么要分出两个基本类型呢?因为人类活动的时代特征(语言学叫历时性)具有明显的差异,有些活动自古有之,且具有万古不易的特性,尽管其形式和内容会有很大变化。另一些活动则不具有这一特性,有些只存在于古代,后来完全消失了,有些活动则产生于工业时代或后工业时代到来之后。万古不易的人类活动被命名为第一类扩展基元概念,具有5个根节点,包括第一类精神生活和第二类劳动。前者包括心理活动、思维活动和理念性行为,后者包括赋予特定意义的专业活动(如政治、经济、文化活动等)和追求活动(如改革与继承、竞争与协同)。非万古不易的人类活动被命名为第二类扩展基元概念,具有3个根节点。第一个根节点命名为第一类劳动,大体对应着所谓体力劳动;第二个根节点命名为第二类精神生活,大体对应着所谓休闲活动;第三个根节点命名为第三类精神生活,大体对应着所谓信仰活动。当然 第一类扩展基元概念里也存在时代生灭的个性特征,同样第二类扩展基元概念里也存在万古不易的个性特征。这些个性特征不难结合具体词语予以标示,而两者的上述总体性时代特征则是一项最基本、最重要的世界知识,是语境生成的基础。
7类抽象概念里的第四类命名为基本概念,具有9个根节点,分别命名为序与广义空间、时间、空间、数、量与范围、质与类、度、属性之属性的判断性描述和评价性描述。基本概念可以认为是一切概念的基础,是概念运作的基本平台,因而也是哲学的永恒课题,特别是其中的最后一项。
7类抽象概念的第五类命名为语言逻辑概念和基本逻辑概念。语言逻辑概念对应着语言学里的所谓虚词,虚词是概念表达的必备工具。概念表达在语言学里叫语言交际,交际包括语言生成过程,因而需要虚词这个工具,但思考并不需要。语言逻辑概念具有12个根节点,这里就不来细说。基本逻辑概念对应着&比较&和&是否有无&这两项基本判断概念,它们分别对应着两个根节点。这两项基本判断是动物(包括人)赖以生存的基本主观条件,而&是否有无&又是哲学的基本课题,&基本逻辑&的命名即来于这一思考。
7类抽象概念的第六类命名为综合概念,具有4个根节点,分别代表认识与谋略、方式方法、条件和广义工具。这里的综合就是指上列6类抽象概念的综合,或者更准确地说 这些概念不能简单地纳入某一类,它们是是各类概念之间相互交织的表现,综合概念的设置是对这一交织性的体现。
7类抽象概念的最后一类命名为语习类概念,具有11个根节点。这里的&语习&就是语言习惯的简称。语习具有明显的语种、时代和地域个性特征,这3项因素也可简称社会个性。这就是说 语习类概念强依赖于社会个性,而前述6类抽象概念则是自然界和社会最大共性的反映。有些与社会个性无关,如主体基元概念、基本概念、基本逻辑概念,有些弱依赖于社会个性,如第一类扩展基元概念、语言逻辑概念和综合概念,与社会个性有密切联系的只是第二类扩展基元概念。
上列52个根节点就是7类抽象概念的全部描述基元,每一个根节点都具有纵横两个方向的延伸结构,每一级延伸都代表一个确定的概念。每一个根节点用一个字母(代表概念类型,但主体基元概念和第一、第二类扩展基元概念不带类型符号)和一个数字(代表根节点的定义)表示,每一级延伸仅用一位数字表示,纵横两个方向的延伸相互交错。但是 从根节点开始的延伸一定是先横后纵,连续延伸代表纵横交错,这时的数字串叫做概念的高层表示,其延伸范围是封闭的,总延伸级数对不同类型的抽象概念有不同的约定。高层表示的后续延伸 纵向叫概念的中层表示,横向叫底层表示,连续的底层延伸代表纵横表示,延伸范围是开放的。中层和底层分别采用不同的数字符号,中层延伸描述概念的局部联想脉络。所谓局部联想脉络就是指概念的对偶性、对比性和包含性,对偶性大体与所谓反义词对应,对比性大体与所谓近义词对应,包含性与与整体-局部-个体相对应。对偶性概念具有十分丰富的内涵和内部结构,不是反义词或黑格尔氏的对立统一法则所能完全概括的。底层延伸描述概念的网络性,实质上是对抽象的再抽象,每一个数字都代表着一组概念之间的复杂关联性。这种纵横表示方案就是上述概念表示关联性原则的具体体现,其数字化表示方式使概念关联性计算呈现出极为简明的特性。例如 &节日&这个概念的HNC符号是j1099,符号里的j10表示&基本概念时间的基本特性&,字母符号j代表基本概念,j1代表时间,j10代表时间基本特性,j109进入底层延伸,代表特定时间点,节日是特定时间点j109的进一步延伸j1099。这个符号实际上是底层符号定义式
&j1099::=(l91/wj10-00+(672;6804)+{a00e2139}+(103a8,l14,wj10-)
的简化,这就是再抽象的具体表现。右式由4项构成,第一项表示特定的一天,第二项表示娱乐或纪念,第三项表示可能放假,第四项表示一年一度。这种符号化方式既能体现节日这个概念本身联想脉络的基本内容,又便于体现与其他相关概念(如假期、节气等)的联系。
拙著《概念层次网络(HNC)理论》只给出了7类抽象概念52个根节点的高层表示,中层和底层表示仅给出了一些示例,甚至是示例的简化方案。HNC概念基元符号体系的完整表示将以《手册》的形式与读者见面。
下面简单说明一下HNC定义的两类具体概念。第一类叫做基本物,第二类叫做挂靠型具体概念。基本物用于宇宙和自然界的描述,类型符号为jw,设置了7个根节点,分别代表热、光、声、电磁、微观基本物、宏观基本物和生命体。第二类具体概念有两个基本类型符号p和w,p代表人,w代表物,pw代表人造物等。它没有自己独立设置的数字延伸符号,也就是说它不设置自身的根节点,而依附于抽象概念。其类型符号后面的数字符号直接取自抽象概念,挂靠这个名称即来于此。例如符号a149表示使节活动,pa149就表示外交人员;1098a9表示流动,w1098a9就表示各种&流&,如w1098a99代表气流,w1098aa代表水流,w1098a9b代表泥石流。第二类具体概念的这种表示方式显然有利于概念联想的激活或语义关联性的计算。
&流动&这个概念是根节点&过程&(属于主体基元概念,以数字符号1表示,不带类型符号)的5级延伸,一级延伸10表示过程的基本特性与类型,按约定 主体基元概念的高层仅一级延伸,1y=1-4分别表示过程的其他特性。数字109已进入&过程&的底层延伸,表示运动过程,三级延伸1098表示物体或物质的运动过程,四级延伸1098a表示物质运动过程,五级延伸1098a9表示流动。顺便说一下 与&流动&相对应的&波动&的符号是1098aa,它是&波动&这个词语的义项之一。&使节活动&这个概念是根节点专业活动(属于第二类劳动,也不带类型符号,直接以数字符号a表示)的3级延伸,一级延伸a1表示政治活动,二级延伸a13表示外交活动。按约定 第二类劳动的高层为二级延伸,符号a139已进入底层,表示外交活动之一的使节活动。
底层表示符号有3种基本类型,分别叫做t延伸、i延伸和 k延伸,t延伸的数字定义域为9-b或8-b,i延伸的数字定义域为3或7,k延伸的数字定义域为1-。这3种底层延伸代表3种不同类型的延伸结构,t延伸和k延伸都是群体延伸,前者是小群体,后者是大群体。i延伸则是单体延伸。上面的两个例子都属于t延伸,t延伸还包括&&&三种子类型,这就不来细说。
中层对偶性的表示符号为m,n,ekm,ekn。前两者表示具有对立统一特征的双重对偶性概念,简称黑氏对偶。后两者表示非黑氏对偶,这种对偶概念要么不具有对立统一特征,要么不只是双重对立,简称非黑氏对偶。例如&过程&的&开始、结束、持续与过渡&就是一个三重对偶性概念,&开始&与&结束&对立,其间必有&持续&,而&持续&并不是&开始&与&结束&的对立统一,两者的对立统一表现是&过渡&,&过渡&才表示一个旧过程结束和一个新过程开始的对立统一存在。
黑氏对偶表示符号m和n的数字定义区域分别为0-2和4-6,1与2、5与6对立(反义),0或4表示相应的对立统一体。
非黑氏对偶用3位数字表示,第一位数字e(14)是非黑氏对偶的标记,第二位数字k表示表示非黑氏对偶的具体类型,其数字定义域为0-b,第三位数字m和n的取值范围依赖于k,并约定m的数字定义域为0-3,n为4-7。&开始、结束、持续、过渡&这一组非黑氏对偶概念的符号表示为11ebm,其中11eb1表示&开始&,11eb2表示表示&结束&,11eb3表示&持续&,11eb0表示&过渡&,四者构成一个局部联想脉络。在语言空间或语言概念空间里 非黑氏对偶概念多于黑氏对偶。
关于&7-2-1&就说到这里,其全貌可参看文献[1]里的总表。这里需要补充的一点是:&7-2-1&的出现是对前面论述1和论述2的否定,两项论述的立足点已经完全改变了,论述1所指出的5个&不知道&已经全部知道了。
现在来介绍&57-3192&,57是基本句类的总数,3192是混合句类的总数。句类是语句的语义-语用类型表示式。这里存在三个根本问题,一是根据什么原则来划分语句的语义类型呢?二是如何构成句类表示式以便于计算机的操作呢?三是如何体现语句的语用特性?
句类的语义类型实质上就是某些抽象概念的概念类型。上述7类抽象中显然并不是每一类都具备决定句类语义类型的资格。语言逻辑概念和语习类完全不具备这一资格,因为它只是语言表达的工具。基本概念和综合概念也不具备,因为两者都是概念运作的基本条件,而非概念运作本身。这样 具备决定句类语义类型资格的抽象概念就只剩下主体基元概念、两类扩展基元概念和基本逻辑概念了,这也是抽象概念总体描述框架设计的初衷。这4类抽象概念总共有6+5+3+2=16个根节点,这16个根节点的高层概念又区分两种基本类型,一种构成基本句类,一种构成混合句类。前者包括主体基元概念的6个根节点、第一类扩展基元概念里的心理和思维活动这两个根节点和基本逻辑概念的两个根节点,其他都构成混合句类。至于底层概念,绝大多数构成混合句类。
思维活动和基本逻辑概念都属于判断。因此基本句类也有7大类之说,7大类就是&作用效应链+判断&,也称广义作用效应链。基本句类是对广义作用效应链一个环节的描述,混合句类是对广义作用效应链两个环节的描述。
作用效应链高层概念节点的设置或设计首先是依据该根节点概念联想脉络的基干通路,同时也考虑到语句语义类型表现的差异。例如 根节点&作用&概念联想脉络的基干通路是&作用&作用的承受&生命体对作用的反应&,同时还应该考虑两种特殊类型的作用,一个叫&免除&,一个叫&约束&,免除是使另外一个作用失去作用的作用,约束是使对象&不做什么或不发生某种变化&的作用,这与一般作用是使对象&做什么或发生某种变化&正好相反。于是&作用&承受&反应&免除&约束&就构成了作用这个根点的5个高层概念,每一个高层概念对应着一个基本句类。分别叫做基本作用句、承受句、反应句、免除句和约束句。这5个作用高层概念的符号依次是00、01、02、03和04,其句类表示式依次是:
&&&&& XJ=A+X+B
&&& &&X10J=X1B+X10+XBC
&&&&& X20J=X2B+X20+XBC
&&&&& X31J=X3A+X31+XABC
&&&&& X4J=A+X4+X4B
这5个表示式是57组基本句类中属于作用句的5种。这里需要着重指出两点:一是句类表示式是相关概念节点联想脉络的体现,二是每一句类具有自身的特定知识,叫句类知识。
句类表示式(也叫句类代码)由若干个单元组成,单元之间用&+&号连接,每一个单元叫语义块。语义块是句类的函数,这就是说 各语义块的语义角色决定于句类,也就是决定于孕育该句类的概念及其联想脉络。例如反应句X20J就具有下述联想脉络:反应必然来于某种刺激,而刺激必然包含刺激者及其表现,因此 反应句的准确描述是:反应者X2B对刺激者(反应引发者)及其表现XBC作出某种反应X20。这里反应者用语义块符号X2B描述,反应者作出的反应用语义块符号X20描述,反应引发者及其表现用语义块符号XBC描述。上面5个句类表示式的第二个语义块叫特征语义块EK,其它叫广义对象语义块JK。语句格式是指JK和EK的排序,上面的排序叫基本格式。对于必须具有EK的句类(在57组基本句类中有5组无EK句类)HNC按照SVO语言的约定,将EK排列在语句基本格式的第二位,而JK排序则决定于该句类的描述主体(主语),主语的编号为JK1,排在EK前面,随后的JK依次编号为JK2、JK3等,排在EK后面。调整基本格式的主块顺序(JKm编号不变)并在JKm之间加上边界标记(这些标记属于语言逻辑概念)的语句叫规范格式。汉语的规范格式特别发达,是汉语理解处理的一项特别财富。
反应句的句类表示式X20J描述了&反应02&这一概念的上述联想脉络特征。捆绑于这一句类的基本句类知识要点是:反应者X2B必然对应着有生命的具体概念,反应引发者及其表现XBC必然对应着具体概念XBCB(反应引发者)和抽象概念XBCC(引发者的表现)。实际的反应句可能省略XBCB或XBCC,在话语里甚至可能完全省略XBC,但从句类知识的预期可知 它们必然存在,依据这一知识可以跟踪语句中出现的部分省略或完全省略。
57组基本句类表示式总共有200种左右的语义块,3192组混合句类总共有上万种语义块,但语义块基元一共只有10个。描述广义作用效应链的有7个基元&作用X、过程P、转移T、效应Y、关系R、状态S和判断D,统称特征基元E,描述广义对象的有3个基元&作用者A、对象B和内容C,统称广义对象基元。特征语义块EK表示式仅由E基元构成,广义对象语义块JK表示式由E基元和广义对象基元联合构成。上面XJ和X4J句类表示式中出现了由单一广义对象基元表示的语义块,是57组基本句类表示式中仅有的简化表示。
EK和JK称为语句的主块,实际的语句除了主块之外 还有辅块fK,它不进入句类表示式,但进入句类知识。句类表示式按主块数量来划分 有两块句、3块句和4块句的区别;按其语句格式是否具有规范格式来划分 有广义作用句和广义效应句的区别;按其概念联想脉络特征来划分,有带EK语句和无EK语句的区别,有块扩语句与常规语句的区别,有JK是否具有先验句蜕特性的区别。这些都属于基本句类知识,对于语句的理解处理具有极为重要的指导意义。例如 上列句类表示式中的XBC和XABC就都具有先验句蜕特性。
所谓句蜕是指该JK表达的内容实际上相当于或包含一个(甚至多个)语句,句蜕也有自己的句类,其句类表示式以ElJ 表示,以区别于语句的全局性句类表示式EgJ,这里的下标符号g和l是英语globle和local的意思。ElJ也有自己的JK和ElK(如果该ElJ存在EK的话)。形态发达语言(例如英语)通常(通常而已,并未完全规范)对ElK采用非限定形态动词,对EgK则采用限定形态动词,因而EgJ和ElJ比较容易辨认。形态不发达语言(例如汉语)的EgK与ElK没有形态区别,EgJ与ElJ的辨认要相对困难一些。汉语理解处理的根本困难之一就是Eg与El的辨认。但是 只要我们深入发掘句类知识,对词语给出更准确的语义描述,这一困难是完全可以克服的,事实上HNC句类分析技术对此已经形成了一整套行之有效的处理策略[2]。
Eg与El的辨认固然是自然语言理解处理的重大难点,但句类E J本身的辨认往往也是一个重大难点。由于自然语言词语语义的不确定性,一个动词常常对应着多个句类,多句类判定与Eg//El辨认属于同一性质的难题。例如汉语的&打破&就对应着8个义项和7种句类[3],这一7选1的判定绝非易事。但是 英语词语的不确定性更为严重一些,汉语非单字动词的多句类模糊比英语小,所以也应该看到汉语的优势。
动词的多句类模糊已经不是纯粹语义特性的表现,也是语用特性的表现。语用与语境密切相关。语用与语境的研究是20世纪下半叶语言哲学研究的主流,取得了巨大成果,被誉为语用学转向[5]。但是 这些研究是围绕着句法-语义-语用的相互关系、语境的定义及其运用等而展开的。论述的基础是语境已存在于交际者的大脑之中。但是 这一存在性对于计算机是不存在的,皮之不存,毛将焉附!因此自然语言理解处理面临着语境生成的迫切需求。
所以 HNC句类分析技术配置了语境生成模块。&7-57-7&就是对语境生成的描述。这3个数字分别代表语境三要素&领域DOM、情景SIT和事件背景BACT(作者背景BACA另说)的基元数量。第一个&7&代表领域的7项基元,&57&代表情景的57项基元,第二个&7&代表事件背景BACT7项基元。7项领域基元就是前述HNC所定义的两类劳动和三类精神生活再加上生命体的本能活动和自然现象,两类劳动和三类精神生活的高层概念就是各领域的子类划分。57项情景基元就是57组基本句类,它们与3192组混合句类一起共同形成情景动态复合构成的基础。7项事件背景BACT就是HNC所定义的7种辅块类型&方式Ms、工具In、途径Wy、条件Cn、参照Re、起因Pr和目的Rt,这些辅块的子类又是事件背景动态复合构成的基础。这样 HNC的句类分析过程同时也是一个语境生成过程,即语境三要素具体信息的获取过程。这些信息直接符号化在词语的HNC映射符号里和语句的句类表示式里,并蕴涵在相应的句类知识里,获取过程并不复杂。当然 语境生成的技术实现还需要解决两个关键问题:一是领域句类的确定,二是情景信息的组装,这里就不来作具体讨论了。
本节就讲这些,最后需要对上面引用的论述4说几句话,那里的规则是指语言空间的描述规则,语言空间固有的不确定性必然带来这些规则的不确定性。但语言概念空间的情况则发生了根本变化,概念联想脉络是确定的,句类知识是确定的,在上面的相应论述里 我们多次使用&必然&这个词语。这就是说 从语言概念空间俯瞰语言空间,规则并不都是统计意义下的最大似然,而主要是康德先生所提倡的理性法官。我们深信理性法官将对NLP中20项难点的消解产生日益显著的作用。
4.一项&管窥一豹&式的考察
&&& 这里通过一个例句的考察 来具体说明句类分析过程对句类知识的运用。句类知识是世界知识的精华,世界知识无垠,但句类知识有限。要让计算机把握世界知识 最有效的方式是从句类知识起步。
例句的原型是:
能够熟练操作计算机的孩子在学习方面不一定优秀。
句类分析结果如下:
&&& &能够熟练地操作|计算机|的孩子&||~在学习方面||不一定优秀。(例句1)
这是57组基本句类之一的简明状态句S04J,其句类表示式为
&&&&&&&&&&&&&&&&& S04J=SB+SC
是汉语常用的无EK句类之一。简明状态句的基本句类知识有两个要点。(1)状态对象SB隐含的表现(内容C)既可以放在JK1=SB里,也可以放在JK2=SC里。前一种放置时SB=SBB+SBC,SBB代表状态描述对象,SBC代表该对象的表现;后一种放置时SC=SCC+SCu,SCC代表状态对象的表现,SCu代表该表现的属性或属性的值。(2)SC的描述中心只能是u类概念短语(u是HNC五元组的属性符号,&很好&和&好得很&就是u类概念短语)或数量短语(这时 SCu取属性值,而前面的情况取属性本身)。
例句1的表达比较特殊,它把状态描述对象&孩子&的表现&学习&变换成参照辅块Re&&在学习方面。所以例句1有3个语义块,两主一辅。如果变换回来,就变成下面的两个句子:
&&&&&&&& &能够熟练地操作|计算机|的孩子&||学习不一定优秀。(例句2)
&&& &能够熟练地操作|计算机|的孩子&的学习成绩/||不一定优秀。(例句3)
例句2把&学习&纳入SCC,例句3把&学习&纳入SBC。
三个例句都是简明状态句,但三者的语义块构成有很大差异。HNC语料标注方式对这些差异信息都给出了明确地标示。例句里的符号 &||& 和 &|& 分别代表EgJ和ElJ的语义块边界,符号&~&是辅块标记,对称符号{&}、 &&& 和 &/ 分别代表原型句蜕、要素句蜕和包装句蜕。
例句有两个动词 &操作&和&学习&。但两者都不构成Eg,前者充当El,其ElJ的原型语句是&孩子|能够熟练地操作|计算机&。后者则依次充当fK、SB和SC的基元C。
HNC句类分析技术能够应对例句里动词的这种语用性模糊么?例句1和3并不困难,&的&字和&在&方面&提供了必要信息。例句2稍微困难一些,智能性较低的程序肯定要先对&学习&作出Eg假设,但随后的EK-JK2检验将否定这一假设。从而回到对整个语串作S04J假设,并依据上述简明状态句的句类知识要点而顺利通过检验。但智能性较高的程序可以不走这一弯路,因为 位于句尾的&不一定优秀&这一u类概念短语已经提供了S04J句类足够的信息,再运用SC的语义块构成知识(即上述S04J句类知识的要点1),问题已经迎刃而解了。这里还应该说明 上述弯路能够达到彼岸么? 这涉及&学习&混合句类T19Ya0*21J句类知识的运用,&优秀&作为该句类JK2的要素 不符合EK与JK2概念关联性的预期要求。这并不是&学习&这个词语的个性知识,传统的句法知识和HNC的JK构成知识都能给出这一预期。因此 弯路也能到达彼岸,但效率要低一个层次。
例句分析更重要的问题是要确定例句1的参照辅块Re乃由状态描述对象SB的表现SBC变换而来,这属于&20项难点&里的主辅变换问题。不作这一变换处理可能导致事件背景BACT的误断。作出这一主辅变换的依据就是上述简明状态句基本句类知识的要点1,是否善于运用句类知识是衡量NLP理解处理程序智能性的主要标准之一。
不言而喻 针对57组基本句类和3192组混合句类的句类知识描述是概念知识库建设的纲领[4],这是一项不寻常的理论及工程建设。但是 要让理性或规则之路在NLP中发挥更大作用,使NLP摆脱在&雪线&边缘艰难跋涉的困境,这一建设是亟待加强的关键性基础研究。
语义及其符号体系在NLP中的作用曾出现比较悲观的基调,第一节引用的四项论述是这一基调的典型代表。但HNC对语言概念空间三层面概念基元符号体系的成功构造表明,实际情况并不是那么悲观,这里的关键思路是要从语言空间提升到语言概念空间来俯瞰语言现象。本文论述涉及到一系列HNC的基本概念和专用术语,不可能一一进行说明,请读者见谅。文中提到的自然语言理解处理20项难点、关于语境的&7-57-7&论述来自作者年所写的专著和论文,但未公开发表。有兴趣的读者可以通过网址查阅有关资料。
参&考&文&献
2&晋耀红汉语理解处理中多动词难点的研究与实现[中科院声学所博士学位论文].中科院声学所,
&&&&&&&& 2003
3&李颖.从&打破&一词看HNC的知识表示.见:张全&萧国政主编,《HNC与语言学研究》.
&&&&&&& 武汉理工大学出版社,0
5&盛晓明.《话语规则与知识基础》.学林出版社.2000
7&邢福义.从基本流向纵观现代汉语语法研究四十年.中国语文,1992,6期
8&杨成凯.句法、语义、语用三平面说的方法论分析.语文研究,1993,1期
数据挖掘知识
数据挖掘微信 ChinaKDD
数据挖掘工具
&2004 - 2012 数据挖掘研究院 -
版权所有 | 皖B2-}

我要回帖

更多关于 古代汉语语法学 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信