方言语料库制作的制作

办公软件(4)
要做基于语料库的研究,免不了要进行标注处理工作。MS-word是大家非常熟悉的文字处理工具。稍加改造便可以制作自己的语料标注工具。在熟悉的环境下进行工作,是不是会少了些忐忑的感觉。下面就来介绍一下如何制作标注工具。
一、设计自己的标注体系, 即赋码集, 比如/Ojg表示机构等等。
二、在word的菜单栏上找到“插入”再往下找到“自动图文集”
在“自动文图文集”对话框下编辑和“添加”自己的赋码,如下
四、完成所有的赋码编辑之后,转到菜单栏“工具”下的“自定义”,并勾选“自动图文集”前的复选框,如下:
五、单击“自定义”对话框下的功能选项卡“命令”,如下图:
右边“命令”下的框内列车了自己的编辑的赋码集,用鼠标将框内的赋码一一拖到Word的菜单栏上,即可。如下图所示:
用word打开需要标注的文本,将光标移到要标注的位置,单击菜单栏上相应的赋码即可完成标注。
注意,用手工标注是一步比较费时费力的工作。不过,据本人了解,目前基于语义的语料库研究都需要有人工标注的投入,对此要有思想准备。
补充:如果标注任务完成了,不再需要这些标注符号,或者需要更新别的符号。完全可以将这些标注符号从word工具栏上拖走。步骤是先点击“工具”,再点击“自定义”,打开工具设定对话框。如下图:
大家可能看到标注符号被拖动+的表示了。《语料库的制作与日语研究》【摘要 书评 试读】- 京东图书
该商品已下柜,非常抱歉!
语料库的制作与日语研究
商品介绍加载中...
扫一扫,精彩好书免费看
服务承诺:
京东平台卖家销售并发货的商品,由平台卖家提供发票和相应的售后服务。请您放心购买!
注:因厂家会在没有任何提前通知的情况下更改产品包装、产地或者一些附件,本司不能确保客户收到的货物与商城图片、产地、附件说明完全一致。只能确保为原厂正货!并且保证与当时市场上同样主流新品一致。若本商城没有及时更新,请大家谅解!
权利声明:京东上的所有商品信息、客户评价、商品咨询、网友讨论等内容,是京东重要的经营资源,未经许可,禁止非法转载使用。
注:本站商品信息均来自于合作方,其真实性、准确性和合法性由信息拥有者(合作方)负责。本站不提供任何保证,并不承担任何法律责任。
印刷版次不同,印刷时间和版次以实物为准。
价格说明:
京东价:京东价为商品的销售价,是您最终决定是否购买商品的依据。
划线价:商品展示的划横线价格为参考价,并非原价,该价格可能是品牌专柜标价、商品吊牌价或由品牌供应商提供的正品零售价(如厂商指导价、建议零售价等)或该商品在京东平台上曾经展示过的销售价;由于地区、时间的差异性和市场行情波动,品牌专柜标价、商品吊牌价等可能会与您购物时展示的不一致,该价格仅供您参考。
折扣:如无特殊说明,折扣指销售商在原价、或划线价(如品牌专柜标价、商品吊牌价、厂商指导价、厂商建议零售价)等某一价格基础上计算出的优惠比例或优惠金额;如有疑问,您可在购买前联系销售商进行咨询。
异常问题:商品促销信息以商品详情页“促销”栏中的信息为准;商品的具体售价以订单结算页价格为准;如您发现活动商品售价或促销信息有异常,建议购买前先联系销售商咨询。
加载中,请稍候...
加载中,请稍候...
加载中,请稍候...
加载中,请稍候...
加载中,请稍候...
加载中,请稍候...
加载中,请稍候...
浏览了该商品的用户还浏览了
加载中,请稍候...
iframe(src='//www.googletagmanager.com/ns.html?id=GTM-T947SH', height='0', width='0', style='display: visibility:')如何语料库
全部答案(共2个回答)
CL语料库已经很全啦~
语料库的建设与开发
(一)总体设计
首先语料库的建设目的要明确,建库的目的决定着语料的选取。
如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库(CLEC)建库目的是:1、通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系,为中国外语教学,尤其是英语写作教学,提供积极反馈;2、对学习者语料库与英语本族语语料库进行对比分析。
语料库的规模设计。在规模上,只要条件允许,应该是语料库的规模越大越好。就语料库发展趋势来看,建立固定规模的语料库并非语料库发展的大趋势,因为语言本身是动态发展的,语料库也应当是动态的,可以不断扩充的。
语料库的内容。如果说规模是针对量的问题,那么,内容就是要解决质的问题。对于内容,最根本的是要真实,它包括两个方面,1、要收集实际使用中的文本,而不能是研究者杜撰的;2、要收集符合条件的文本。如要建立的是学习者语料库,要分析的是学生的真实语言能力,就不能把学生抄袭书本的东西收进来。
(二)具体实施
1、语料的搜集
现代计算机技术和网络资源使得语料库语料的获得变得方便容易。传统的语料库建设,
语料输入工作极为浩繁,基本上靠手工键盘输入和扫描输入,费时费力,且容易出现错误,需要校对。如今大量的在线语料资源、光盘资料、因特网资源,包括新闻、邮件列表、电子邮件等,使语料库的建设和扩充变得非常快捷方便。
当然,用于不同研究目的的语料库对其语料来源可能要求不同,会影响到语料的采集。
语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡,要考虑每一文类、体裁、
语域、主题类型等的抽样比例。乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性。目前,计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围,再就是确定语料的分层结构,进行分层抽样,如把语料按文类(如小说、新闻报道、科学论文、法律文书、诗歌、散文等)和信道(如书面语和口语)进行分层抽样。在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。
3、语料库的加工
文本输入计算机后,一般需要进行一些加工,主要包括语料的标识和语料的赋码。
1)语料库的标识
标识主要分两类:一类是对文本的性质和特征进行标识,另一类是对文本中的符号、格式等进行标识。如CLEC语料库标注了以下主要信息,包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的,因为它们可以用来对文本进行必要的分类,为灵活提取文本进行各类目的研究提供便利,而且它们可以标注在文本开头或者作为另一个文件保存,丝毫不破坏语料的完整性和原始性。至于第二类标识可以视研究和应用的目的而定。但不管怎样,保存一份未标识的原文本是很有必要的。
一些研究不需要赋码语料库,而有些研究需要赋码语料库。
当前,语料库的赋码主要有两类:一类是词类码,又称语法码;另一类是句法码。
词类赋码就是对文本中每一个词标注词类属性,这项工作通常是在传统语法对词类的划分的基础上进行的,只是分类适应要求做得更细。如在LOB语料库中以NN代表普通名词的单数形式,以NNP代表以大写字母开头的普通名词的单数形式,如Englishman ,以NNS代表普通名词的复数形式,如desks,以VB代表动词的基本形式,如wite、see,以VBD 代表动词的过去式,如wote 、saw,以VBG代表动词的现在分词形式,如eading 、eating ,以 VBN 代表动词的过去分词形式,如witten 、seen,等等。目前自动词类赋码技术已经基本成熟,对英语基本上可以通过计算机自动赋码,且赋码正确率在96%—97%左右。
句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例,其句法赋码系统分三个步骤:第一步,对文本中每一个词赋以可能的句法码。该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步,寻找一些特殊的语法码形式和句法片断,对句法结构作必要的修改。最后,完成每一可能的句法分析,并逐一赋值,从中选出可能性最大,即值最大的句法分析作为每句的分析结果。
词类赋码和句法赋码为语言的量化研究创造了条件,为进一步研究自然语言的概率性特征提供了方便,为进一步的语义、语法和语用分析等打下了基础。
4、语料库引擎
通常意义上的计算机语料库一般包括语料库本体(即语料库电子文本)和语料库引擎(即
语料库索引程序)两个部分。
索引工具的基本功能包括词频统计、词表生成、语篇统计、关键词索引、排序、搭配词统计、词语型式统计、主题词提取、词丛统计、词图统计等等。
网上提供了一些可以利用的工具软件,包括MicoConcod、Wodsmith Tools、TACT、Concodance 1.1.3 、TEC Concodancing Tools 具有提供词语索引、搭配词表以及各词语索引行的扩展语境的功能,允许用户把索引结果存储在自己的硬盘上。
MicoConcod 可进行带语境的关键词索引。 利用它可以观察关键词所在语篇,获得左右搭配词表。
Wodsmith Tools 具有下列功能:1)生成词表、可按词频、字母顺序分别排列,并提供各种统计信息;2)关键词提取。可进一步统计分析关键词在语篇中的分布,再生成该语料库的主要关键词,还可以查出某一关键词的联想词汇。3)提供词汇词语型式表和搭配词位置分布等极有价值的信息,使研究者可以从多种角度对词汇运用进行分析。4)查询结果可以很方便地转换为表格形式,并读入到MS Access、Excel 等数据库中进行相关的分析统计。
TACT是一个语料库索引软件包,它具有全文索引、语境中的关键词索引、词表生成、词频统计、搭配词自动提取、语料比较等强大的功能。
Concodance 除了一般文本索引软件所具有的功能外,其独特之处是能够把索引结果自动生成HTML网页,供在线浏览。它是一个独立软件,可利用它对任何语料库文本进行索引分析。
1)确定语料收集范围
2)语料的采样
3)开始收集语料
4)语料清理与整理
5)将语料导入语料库
要一级一级的升才可以,第一次只能建阵,带上钱和人再去一次阵,可升级到砦,升级完后钱够的话,不用回城,继续建设就可升级到城寨了。
工作物除了可以当防守据点外的其它...
1.重启电脑试试; 2.重新汉化试试; 3.推荐直接到网上下载汉化版,5.6版的汉化版很多。
简单地说,语料库就是语言材料的仓库。在语言学研究中,搜集大量的语言材料,比如报章杂志、文学作品、 科普读物等,经过整理后,可以进行统计、对比,还可以进一步用 统...
答: 这是你安装其他软件附带安装Office插件造成的,必须安装那个软件才有,例如安装Adobe Acrobat后就会给Office安装pdf插件。
答: 这个应该是 暂时不收费的
答: 是U8财务套装吗? U861可以单机使用. 安装过程中不需要网络. 使用过程中可能有组件用到网络,但是不联网照样能用。
如果单机使用的话,那你只能用SERVER...
大家还关注
Copyright &
Corporation, All Rights Reserved
确定举报此问题
举报原因(必选):
广告或垃圾信息
激进时政或意识形态话题
不雅词句或人身攻击
侵犯他人隐私
其它违法和不良信息
报告,这不是个问题
报告原因(必选):
这不是个问题
这个问题分类似乎错了
这个不是我熟悉的地区从语料库建设到元语言话语文本制作--《辞书研究》2004年03期
从语料库建设到元语言话语文本制作
【摘要】:本文论述词典释义的科学程序。词典释义需要从语料库建设、词义的切分和整合、词义的内部言语化、元语言话语文本制作这四个方面做起。
【作者单位】:
【分类号】:H06
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【引证文献】
中国期刊全文数据库
方宝花;何华连;;[J];辞书研究;2006年01期
中国博士学位论文全文数据库
万江波;[D];上海外国语大学;2005年
中国硕士学位论文全文数据库
陈胜;[D];河北师范大学;2007年
卢骄杰;[D];华东师范大学;2007年
【共引文献】
中国期刊全文数据库
李红印;[J];辞书研究;1999年05期
杨子菁;[J];辞书研究;2001年04期
黄理兵;[J];辞书研究;2001年06期
苏宝荣;[J];辞书研究;2002年02期
谢新暎;;[J];福建广播电视大学学报;2006年02期
苏宝荣;[J];河北师范大学学报(哲学社会科学版);2003年04期
殷志平;[J];汉语学习;2002年02期
谢永芳;[J];汉语学习;2003年03期
李卫红,万建成;[J];计算机应用;2004年05期
郭曙纶,吴颖;[J];洛阳大学学报;2002年01期
中国重要会议论文全文数据库
罗思明;;[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
袁明军;;[A];第六届汉语词汇语义学研讨会论文集[C];2005年
裴雨来;吴云芳;;[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
舒雅丽;阮福禄;;[A];第七届国际汉语教学讨论会论文选[C];2002年
中国博士学位论文全文数据库
阿不力米提·优努斯;[D];新疆大学;2003年
钟吉娅;[D];华东师范大学;2003年
李艳红;[D];四川大学;2004年
王建莉;[D];浙江大学;2005年
杨元刚;[D];华东师范大学;2005年
额尔敦朝鲁;[D];内蒙古大学;2005年
吴峥嵘;[D];华中师范大学;2006年
于屏方;[D];广东外语外贸大学;2006年
张磊;[D];中央民族大学;2006年
谢学敏;[D];北京语言大学;2006年
中国硕士学位论文全文数据库
王业兵;[D];华中师范大学;2000年
陈丽萍;[D];山东师范大学;2000年
朱彦;[D];广西师范大学;2000年
吴秀荣;[D];山东师范大学;2001年
李轶;[D];广西师范大学;2001年
胡大柳;[D];中国社会科学院研究生院;2001年
杨世蓉;[D];西南交通大学;2002年
郑旭玲;[D];厦门大学;2002年
张美霞;[D];北京语言文化大学;2003年
廖强;[D];西南师范大学;2003年
【同被引文献】
中国期刊全文数据库
卢润祥;[J];辞书研究;1997年01期
阎德早,方瑛;[J];辞书研究;1998年01期
黄建华;[J];辞书研究;1998年02期
章宜华;[J];辞书研究;1999年05期
章宜华;[J];辞书研究;2001年01期
郑庆珠;[J];辞书研究;2001年02期
王小海;[J];辞书研究;2001年04期
钱厚生;[J];辞书研究;2002年01期
张新华;[J];辞书研究;2002年05期
金艳艳;[J];辞书研究;2003年02期
中国硕士学位论文全文数据库
张少英;[D];北京语言大学;2006年
晏丽芝;[D];厦门大学;2006年
【相似文献】
中国期刊全文数据库
王海静;;[J];辞书研究;2011年04期
谢盛良;;[J];惠州学院学报(社会科学版);2011年04期
陈昌来;雍茜;;[J];当代修辞学;2011年03期
李海燕;邵怀领;;[J];中国文字研究;2010年00期
朱英毅;海继红;;[J];柳州职业技术学院学报;2011年04期
金花漫;;[J];西南科技大学学报(哲学社会科学版);2011年04期
张统宣;;[J];价值工程;2011年22期
陈晋秋;;[J];教育文化论坛;2011年03期
余承法;;[J];江汉论坛;2011年09期
沈敏;范开泰;;[J];语言研究;2011年03期
中国重要会议论文全文数据库
郭曙纶;;[A];2004年辞书与数字化研讨会论文集[C];2004年
宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
黄玉;李生;孟遥;丁华福;;[A];第一届学生计算语言学研讨会论文集[C];2002年
李明;;[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
孙述学;;[A];2004年辞书与数字化研讨会论文集[C];2004年
张建梅;赵玉荣;包晓荣;高娃;哈斯图雅;;[A];第三届学生计算语言学研讨会论文集[C];2006年
安娜;侯敏;;[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
陈国华;梁茂成;Adam K;[A];中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑[C];2005年
马永腾;亢世勇;;[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
亢世勇;李毅;孙道功;张楠;;[A];2004年辞书与数字化研讨会论文集[C];2004年
中国重要报纸全文数据库
顾曰国;[N];中国社会科学院院报;2003年
;[N];光明日报;2001年
文枫;[N];中国社会科学院报;2009年
张然;[N];市场报;2003年
宋晖;[N];中国社会科学报;2011年
周诺;[N];中国教育报;2004年
吴晶 董豆豆;[N];新华每日电讯;2009年
国家语委副主任、教育部语信司司长 李宇明;[N];语言文字周报;2009年
高泽友 邹煜;[N];中国文物报;2010年
教育部语言文字信息管理司司长李宇明;[N];中国教育报;2001年
中国博士学位论文全文数据库
张廷香;[D];山东大学;2010年
刘建鹏;[D];西南大学;2012年
何婷婷;[D];华中师范大学;2003年
李毅;[D];山东大学;2012年
唐斌;[D];上海外国语大学;2010年
徐欣;[D];山东大学;2011年
张建梅;[D];内蒙古大学;2010年
郑泽芝;[D];北京语言大学;2005年
付宁;[D];山东大学;2009年
隋岩;[D];北京语言大学;2004年
中国硕士学位论文全文数据库
刘露露;[D];四川外语学院;2011年
杜雪玲;[D];大连理工大学;2008年
张艳;[D];大连海事大学;2011年
吕艳辉;[D];山东大学;2005年
洪丹凤;[D];北京交通大学;2011年
王玲;[D];西安外国语大学;2011年
樊小玲;[D];华东师范大学;2005年
赵玉荣;[D];内蒙古大学;2009年
邹清华;[D];吉林大学;2008年
徐芳;[D];湖南师范大学;2008年
&快捷付款方式
&订购知网充值卡
400-819-9993打造自己的语料库,语料库的制作与日语研究4_沪江日语学习网
网页版学习工具
《语料库的制作与日语研究》
作者:于康
本书是方法工具与日语教学丛书之一。主要介绍如何利用免费软件来制作日语语料库和如何使用语料库。让每位读者拥有自己的语料库,以此进行各自的研究。内容主要包括语料的收集、PDF转换为文本文件的处理技巧、语料库的具体制作技术、语料库的使用、利用语料库研究日语的范例研究等。
注:本文内容节选于《语料库的制作与日语研究》一书。本书由浙江工商大学出版社出版,沪江英语授权转载部分内容。
1.2现在可供使用的主要语料库
目前日本已正式公开的语料库和近似语料库并具有检索功能的主要研究成果如下:
1『現代日本語書き言葉均衡コーパス』
日本国立国语研究所研制。可检索11种体裁的信息,共计1亿480万字。可在网上检索,但有容量限制。申请光盘时需要付费。
网站的地址: http://www.kotonoha.gr.jp/shonagon/。
2『太陽コーパス』
日本国立国语研究所研制。该语料库收录了1895年~1925年博文馆出版发行的月刊杂志『太陽』的大部分内容,共计1450万字。作者约一千多人。由博文馆新社发行,价格为9500日元(不含税)。
网站的地址: http://www.hakubunkan.co.jp/gengo/taiyoC.html
3『日本語話し言葉コーパス』
日本国立国语研究所、情报通信研究机构、东京工业大学联合研制。共17盘DVD-ROM。包括3302个演讲的音声资料和文字资料,以及词性信息、话语结构信息和说话者信息等。使用时需要购买光盘。
网站的地址: http://www.ninjal.ac.jp/products-k/katsudo/seika/corpus/releaseinfo/
4『近代女性雑誌コーパス』
田中牧郎、小椋秀樹、山口昌也、小木曽智信、笹原宏之、湯浅茂雄研制。收录了1894年~1925年发行的部分女性杂志。共计210万字左右。免费使用,但需要申请光盘。
网站的地址: http://www2.ninjal.ac.jp/lrc/index.php?%B6%E1%C2%E5%BD%F7%C0%AD%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9
5『Webデータに基づく複合動詞用例データベース(開発版)』
国立国语研究所的山口昌也开发研制。现为开发版。专门用来检索和考察日语的复合动词。已收录日语复合动词3037个。网上检索,免费使用。
网站的地址:http://csd.ninjal.ac.jp/comp/index.php
6『青空文庫』
网上电子图书馆青空文库。收录作品共计1万1144个(2012年3月为止)。网上检索,免费使用。
网站的地址: http://www.aozora.gr.jp/
7『新潮文庫の100冊』新潮社出版发行。CD。共收录100部名作。现已绝版,但可通过旧书店购买。
8『明治の文豪』新潮社出版发行。CD。共收录40部名作。现已绝版,但可通过旧书店购买。
9『大正の文豪』新潮社出版发行。CD。共收录40部名作。现已绝版,但可通过旧书店购买。
10『新潮文庫の絶版100冊』新潮社出版发行。CD。共收录100部名作。现已绝版,但可通过旧书店购买。
11『日本語動詞の結合価』
荻野孝野、小林正博、井佐原均研制。三省堂出版发行。约15万个例句。是研究日语动词配价的一个经典语料库。5万400日元。
网站的地址: http://www.sanseido-publ.co.jp/publ/nihongo_dosi_ketugoka.html
12『朝日DNA~聞蔵~』
朝日新闻社出版发行。收录了从1879年创刊号至今,包括日本全国和地方版的早报和晚报,以及杂志『週刊朝日』『AERA』『現代用語事典知恵蔵』。网上检索。收费。
13.各大报纸网上语料库
除了上述朝日新闻社的『朝日DNA~聞蔵~』之外,日本各大报纸都建立了自己的语料库。网上检索。收费。
14『国会会議録検索システム』
日本国立国会图书馆研制。可检索众议院和参议院各类会议的记录。并具备按照专题和指定发言者进行检索的功能。网上检索。免费使用。
网站的地址: http://kokkai.ndl.go.jp/
15『日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB)』
日本国立国语研究所研制。收录了21个国家的1575篇日语作文。网上检索。免费使用。使用时需要提前登记。
网站的地址: http://jpforlife.jp/taiyakudb.html#p1
16『寺村誤用集データベース』
日本国立国语研究所研制。可检索非日语母语者学习日语时出现的偏误用法。网上检索。免费使用。
网站的地址: http://teramuradb.ninjal.ac.jp/db/
17『KYコーパス』
以鎌田修和山内博之两人的罗马字第一个字母命名。收录了90名汉语、英语、韩语母语者的录音文字记录。免费使用,但需要申请。
网站的地址:http://opi.jp/shiryo/ky_corp.html
18.《中日对译语料库》
北京日本学研究中心研制。共计两千多万字。可在北京日本学研究中心购买《中日对译语料库》的CD-ROM。
19『NINJAL-LWP for BCCWJ』
日本国立国语研究所和Lago语言研究所共同开发的网上检索系统。以日本国立国语研究所研制开发的大型语料库『現代日本語書き言葉均衡コーパス』为母体,专门用来检索动词、形容词、名词和其它词汇以及语法标记的搭配关系。网上检索,免费使用。
网站的地址: http://nlb.ninjal.ac.jp/
除了上述语料库之外,很多研究者也在研发各类语料库。有的已经公开,有的属于有条件的公开或半公开,有的尚未公开。凡是正式公开的,在网上应该是很容易找到的。
相关热点:}

我要回帖

更多关于 国内权威的语料库 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信