中文语言资源联盟资源目录  · casia汉语多音字语料库 *...

26
2003年度863计划语音合成评测数据 * 资源编号:2003-863-002 * 资源简介:各项中的语料均分为通用领域和奥运特定领域。包含本年度评测结果报 告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国社会科学院语言研究所 * 资源用途:语音合成 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台 地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行 2003年度863计划机器翻译评测数据 * 资源编号:2003-863-004 * 资源简介:汉英,英汉,汉日,日汉四个项目的奥运领域的对话和篇章语料的评 测。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的 评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:机器翻译 * 价格:共四个方向,每个方向:中国大陆地区研究用:1000RMB;中国大陆地区商用 3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用: 3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行 2003年度863计划全文检索评测数据 * 资源编号:2003-863-006 * 资源简介:包括小规模评测的测试语料,小规模评测的题目,大规模评测的题目。 包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测 大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:全文检索 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台 地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行 中文语言资源联盟资源目录 http://www.chineseldc.org

Upload: others

Post on 14-Jun-2020

18 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2003年度863计划语音合成评测数据

* 资源编号:2003-863-002 * 资源简介:各项中的语料均分为通用领域和奥运特定领域。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国社会科学院语言研究所 * 资源用途:语音合成 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2003年度863计划机器翻译评测数据

* 资源编号:2003-863-004 * 资源简介:汉英,英汉,汉日,日汉四个项目的奥运领域的对话和篇章语料的评测。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:机器翻译 * 价格:共四个方向,每个方向:中国大陆地区研究用:1000RMB;中国大陆地区商用3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2003年度863计划全文检索评测数据

* 资源编号:2003-863-006 * 资源简介:包括小规模评测的测试语料,小规模评测的题目,大规模评测的题目。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:全文检索 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

中文语言资源联盟资源目录 http://www.chineseldc.org

Page 2: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2003年度863计划分词标注评测数据

* 资源编号:2003-863-008 * 资源简介:242个文件,约40万汉字。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:山西大学 * 资源用途:分词标注 * 价格:中国大陆地区研究用:2000RMB;中国大陆地区商用:6000RMB;中国港澳台地区或国外研究用:2000USD;中国港澳台地区或国外商用:6000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2004年度863计划命名实体评测数据

* 资源编号:2004-863-002 * 资源简介:语料类型包括简体和繁体两种文本,其中简体241个文件(约40万字),繁体126个文件(约40万字)。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所,山西大学计算机科学系计算机应用研究所,香港城市大学语言资讯科学研究中心 * 资源用途:命名实体 * 价格:中国大陆地区研究用:500RMB;中国大陆地区商用:1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2004年度863计划自动文摘评测数据

* 资源编号:2004-863-004 * 资源简介:语料包括20篇文章,字数从800到2500字不等。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:自动文摘 * 价格:资源免费 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 3: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2004年度863计划语音识别评测数据

* 资源编号:2004-863-006 * 资源简介:包括桌面中文、电话语音、PDA语音三部分。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:语音识别 * 价格:桌面中文:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。桌面英文:中国大陆地区研究用:500RMB;中国大陆地区商用:1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。电话语音(含语法):中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。PDA语音:中国大陆地区研究用:500RMB;中国大陆地区商用1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

面向奥运的中英日三语语料库(汉英部分)

* 资源编号:2004-863-006 * 资源简介:包括桌面中文、电话语音、PDA语音三部分。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:语音识别 * 价格:桌面中文:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。桌面英文:中国大陆地区研究用:500RMB;中国大陆地区商用:1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。电话语音(含语法):中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。PDA语音:中国大陆地区研究用:500RMB;中国大陆地区商用1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 4: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2005年度863计划机器翻译评测数据

* 资源编号:2005-863-001 * 资源简介:含汉英、英汉、汉日、日汉、日英、英日六个方向,对话、篇章两种类型,对话语料为奥运相关领域,篇章为新闻领域。含开发集和测试集。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所,日本情报通信研究机构Keihanna情报通讯融合研究中心 * 资源用途:机器翻译 * 价格:机器翻译共六个翻译方向,每个翻译方向中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。词语对齐,中国大陆地区研究用:500RMB;中国大陆地区商用:1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2005年度863计划语音识别评测数据

* 资源编号:2005-863-003 * 资源简介:包括桌面中文、电话语音两部分。含训练集、开发集和测试集。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:语音识别 * 价格:桌面中文:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。电话语音:中国大陆地区研究用:3000RMB;中国大陆地区商用:9000RMB;中国港澳台地区或国外研究用:3000USD;中国港澳台地区或国外商用:9000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 5: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

现代汉语通用词表

* 资源编号:CLDC-LAC-2003-001 * 资源简介:是具有较强通用性及覆盖能力的现代汉语通用词表,规模为98000个经过精心挑选的词,每个词条包括词项、拼音和词频等信息。 * 开发单位:清华大学计算机科学与技术系和中国科学院自动化研究所 * 资源用途:自然语言理解 * 价格:中国大陆地区研究用--2500RMB;中国港澳台地区或国外研究用--2500USD;中国大陆地区商用--12500RMB;中国港澳台地区或国外商用--12500USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 6: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

分词词性标注语料库

* 资源编号:CLDC-LAC-2003-003 * 资源简介:该语料库是500万字的平衡语料,经过分词和词性标注,并人工校对。词性标注按照"973"测试所用的二级体系进行标注。 * 开发单位:山西大学计算机与信息技术学院 * 资源用途:自然语言理解 * 价格:中国大陆地区研究用--8000RMB;中国港澳台地区或国外研究用--6000USD;中国大陆地区商用--50000RMB;中国港澳台地区或国外商用--12000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

汉语句法树库

* 资源编号:CLDC-LAC-2003-007 * 资源简介:本词库在北京市奥运多语言信息服务系统项目支持下开发而成。 * 开发单位:中国科学院计算技术研究所 * 资源用途:机器翻译、文本分析 * 价格:中国大陆地区研究用--5000RMB;中国港澳台地区或国外研究用--5000USD;中国大陆地区盈利用--25000RMB;中国港澳台地区或国外赢利用--25000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

奥运领域汉英词库

* 资源编号:CLDC-LAC-2003-007 * 资源简介:本词库在北京市奥运多语言信息服务系统项目支持下开发而成。 * 开发单位:中国科学院计算技术研究所 * 资源用途:机器翻译、文本分析 * 价格:中国大陆地区研究用--5000RMB;中国港澳台地区或国外研究用--5000USD;中国大陆地区盈利用--25000RMB;中国港澳台地区或国外赢利用--25000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

现代汉语内涵逻辑语义词典

* 资源编号:CLDC-LAC-2003-009 * 资源简介:建立面向交通领域的现代汉语内涵逻辑语义词典,词典包括名词、动词、形容词等。规模2621词,其中包括动词1096词,名词1420词,形容词105词。 * 开发单位:上海交通大学 * 资源用途:自然语言理解 * 价格:中国大陆地区研究用--2000RMB;中国港澳台地区或国外研究用--2000USD,中国大陆地区商用:10000RMB;中国港澳台地区或国外商用:10000USD. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 7: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

国家语委现代汉语通用平衡语料库(生语料库)

* 资源编号:CLDC-LAC-2006-001 * 资源简介:汉语教学与研究、信息处理等 * 开发单位:教育部语言文字应用研究所 * 资源用途:汉语教学与研究、信息处理等 * 价格:中国大陆地区研究用:20000RMB;中国大陆地区商用:30000RMB;中国港澳台地区或国外研究用:20000RMB;中国港澳台地区或国外商用:30000RMB * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

国家语委现代汉语通用平衡语料库(句法树库)

* 资源编号:CLDC-LAC-2006-003 * 资源简介:汉语教学与研究、信息处理等 * 开发单位:教育部语言文字应用研究所 * 资源用途:汉语教学与研究、信息处理等 * 价格:中国大陆地区研究用:10000RMB;中国大陆地区商用:20000RMB;中国港澳台地区或国外研究用:10000RMB;中国港澳台地区或国外商用:20000RMB * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

CASIA汉语多音字语料库

* 资源编号:CLDC-LAC-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,总计句子规模约为200,000句。 * 开发单位:中国科学院自动化所 * 资源用途:为多音字读音消歧所设计的语料库 * 价格:中国大陆地区研究用:5000RMB;中国大陆地区商用:20000RMB;中国港澳台地区或国外研究用:5000USD;中国港澳台地区或国外商用:20000USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

中文互联网5-gram语料库

* 资源编号:CLDC-LAC-2008-001 * 资源简介:包含了中文n-gram数据以及他们在互联网中的观测频率。包含的n-gram的长度从ungram到5-gram。 * 开发单位:Google研究院 * 资源用途:基于统计语言模型的工作有所帮助,包括中文分词,机器翻译等。 * 价格:资源免费 * 会员优惠:仅用于国内外研究使用

Page 8: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

CASIA98-99语音测试库

* 资源编号:CLDC-SPC-1999-017 * 资源简介:汉语普通话。863语音库中选取女声语料10人次和男声语料33人次,组成测试集。 * 开发单位:中国科学院自动化研究所 * 资源用途:非特定人,大词汇量,连续语音的识别引擎的测试研究。 * 价格:中国大陆地区研究用--300RMB;中国港澳台地区或国外研究用--1200RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外商用:6000RMB. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

CASIA单音节孤立词语音库

* 资源编号:CLDC-SPC-1999-019 * 资源简介:单音节、词和句子。包括,女声语料(共4组、61人次、录音时间61小时)和男声语料(共5组、40人次、录音时间6小时)。 * 开发单位:中国科学院自动化研究所 * 资源用途:汉语大规模连续语音识别 * 价格:中国大陆地区研究用--1000RMB;中国港澳台地区或国外研究用--4000RMB;中国大陆地区商用:10000RMB;中国港澳台地区或国外商用:20000RMB. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

中英文混读语音语料库-男声库

* 资源编号:CLDC-SPC-2003-008 * 资源简介:语料库的内容包括:声音质量高的语音数据和相应的文本、和标注数据。本课题完成后,可以提供一共供中英文语音合成、韵律建模、语料库标注方法探索方面可以使用的音库。可以通过双语种基础语料库的建设,推动国际间在相关领域的技术合作和探讨。 * 开发单位:科大讯飞信息科技公司 * 资源用途:语音合成、语音分析、韵律研究 * 价格:中国大陆地区研究用:57000RMB;中国港澳台地区或国外研究用:57000USD; * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 9: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

中英文混读语音语料库-女声库

* 资源编号:CLDC-SPC-2003-008 * 资源简介:语料库的内容包括:声音质量高的语音数据和相应的文本、和标注数据。本课题完成后,可以提供一共供中英文语音合成、韵律建模、语料库标注方法探索方面可以使用的音库。可以通过双语种基础语料库的建设,推动国际间在相关领域的技术合作和探讨。 * 开发单位:科大讯飞信息科技公司 * 资源用途:语音合成、语音分析、韵律研究 * 价格:中国大陆地区研究用:57000RMB;中国港澳台地区或国外研究用:57000USD; * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

RASC863——四大方言普通话语音语料库--朗读部分(粗标库)

* 资源编号:CLDC-SPC-2004-004 * 资源简介:RASC863包括自然口语(口语独白和常见问题回答)和朗读(语音平衡句子、常用口语句和常用方言词汇)两大部分。自然口语部分分为依据话题的口语独白和回答问题两个部分。其它部分包括回答问题15个、口语常用句子23个、方言词若干、语音平衡句子110句。除了方言词汇,其他的句子都有汉字和拼音标注。人名、电话号码、网址、日期等是通过每个发音人通过回答问题收集的;语音平衡句子最长30个音节,部分来自聊天对话的转写语料。 * 开发单位:中国社会科学院语言研究所 * 资源用途:语音分析、语音识别、语音合成、自然语言理解等 * 价格:中国大陆地区研究用:声音25RMB/份,标注10RMB/份。中国大陆地区赢利用:声音125RMB/份,标注50RMB/份。中国港澳台地区或国外研究用:声音50RMB/份,标注20RMB/份。中国港澳台地区或国外赢利用:声音250RMB/份,标注100RMB/份。份指每人的数据,每个方言点有200份,4地合计800份。注:声音部分和朗读部分(粗标库)中对应发音人的声音是一样的,如果已经购买了粗标库声音就不必再购买精标库声音了 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

电话语音识别语料库

* 资源编号:CLDC-SPC-2004-010 * 资源简介:采用8K采样率录制,其中包括具有不同口音、年龄和文化层次的664个录音人;录音数据采自不同信道,其中长途电话数据来自38个不同的省市及地区。所设计的录音文本考虑到电话语音应用中最为常见的情况,并覆盖汉语音节及其音联关系,以保证用此数据库训练出来的声学模型具有良好的效果。 * 开发单位:清华大学电子工程系和网络与人机语音通信研究所 * 资源用途:语音识别、语音合成、语音分析、自然语言理解等 * 价格:中国大陆地区研究用--3万RMB;中国港澳台地区或国外研究用--6万RMB;中国大陆地区赢利用--4万RMB;中国港澳台地区或国外赢利用--10万RMB。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 10: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

CASIA北方口音语音库

* 资源编号:CLDC-SPC-2004-015 * 资源简介:北京地区汉语普通话。 * 开发单位:中国科学院自动化研究所 * 资源用途:非特定人,大词汇量,连续语音的识别引擎的研究。 * 价格:中国大陆地区研究用--5000RMB;中国港澳台地区或国外研究用--20000RMB;中国大陆地区盈利用--50000RMB;中国港澳台地区或国外盈利用--50000RMB。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

CASIA汉语疑问句语料库

* 资源编号:CLDC-SPC-2004-021 * 资源简介:发音人共有4人,其中男声2人,女声2人。每个人各录制590句,内容涵盖各种疑问句式;另有2个发音人(男声1人,女声1人)分别录制了与各种疑问语气疑问语相对应的陈述语气疑问句,可供对比研究。所有语料共3540句。 * 开发单位:中国科学院自动化所 * 资源用途:为分析疑问句语调变化规律所设计的语料 * 价格:中国大陆地区研究用:2000RMB;中国大陆地区商用:8000RMB;中国港澳台地区或国外研究用:2000USD;中国港澳台地区或国外商用:8000USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

ASCCD-汉语普通话朗读语篇语料库

* 资源编号:CLDC-SPC-2004-021 * 资源简介:发音人共有4人,其中男声2人,女声2人。每个人各录制590句,内容涵盖各种疑问句式;另有2个发音人(男声1人,女声1人)分别录制了与各种疑问语气疑问语相对应的陈述语气疑问句,可供对比研究。所有语料共3540句。 * 开发单位:中国科学院自动化所 * 资源用途:为分析疑问句语调变化规律所设计的语料 * 价格:中国大陆地区研究用:2000RMB;中国大陆地区商用:8000RMB;中国港澳台地区或国外研究用:2000USD;中国港澳台地区或国外商用:8000USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

SCSC——汉语普通话单音节语音语料库

* 资源编号:CLDC-SPC-2005-015 * 资源简介:汉语普通话两音节语音语料库由汉语两音节语音数据、两音节语料表及管理软件组成,适用于语言语音研究、语音工程开发和基础汉语普通话教学等领域。 * 开发单位:中国社会科学院语言所语音研究室 * 资源用途:用于语言语音研究、语音工程开发和基础汉语普通话教学等领域 * 价格:中国大陆地区研究用:1,800RMB;中国大陆地区商用:9,000RMB;中国港澳台地区或国外研究用:900USD;中国港澳台地区或国外商用:4,500USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 11: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

TSC973-973电话语料库

* 资源编号:CLDC-SPC-2006-001 * 资源简介:录音人数:该产品共包括265个发音人(其中男性134人,女性131人)。发音人具有不同口音、年龄和文化层次;录音内容:201人:人名30 句(每句3个人名)+地名30句(每句2个或3个地名);64人:人名15(每句3个人名)+地名15句(每句2个或3个地名)。数据总量为964MB,共计17.6小时 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:17000人民币 * 会员优惠:参加中文语言资源联盟活动

电话语音识别语音库——人名、地名(座机285人)

* 资源编号:CLDC-SPC-2006-001 * 资源简介:录音人数:该产品共包括265个发音人(其中男性134人,女性131人)。发音人具有不同口音、年龄和文化层次;录音内容:201人:人名30 句(每句3个人名)+地名30句(每句2个或3个地名);64人:人名15(每句3个人名)+地名15句(每句2个或3个地名)。数据总量为964MB,共计17.6小时 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:17000人民币 * 会员优惠:参加中文语言资源联盟活动

电话语音识别语音库——数字串(座机285人)

* 资源编号:CLDC-SPC-2006-004 * 资源简介:录音人数:该产品共包括285个发音人(其中男性144人,女性141人)。发音人具有不同口音、年龄和文化层次;录音内容:199人:数字串30句; 86人:数字串25句。产品容量:该产品的数据总量为669MB,共计12.2小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:8000人民币 * 会员优惠:参加中文语言资源联盟活动

电话语音识别语音库——股票(座机285人)

* 资源编号:CLDC-SPC-2006-006 * 资源简介:录音人数:该产品共包括285个发音人(其中男性144人,女性141人)。发音人具有不同口音、年龄和文化层次;录音内容:199人:股票30句(每句2个股票名);产品容量:该产品的数据总量为373MB,共计7小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:7000人民币 * 会员优惠:参加中文语言资源联盟活动

Page 12: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

电话语音识别语音库——短信(座机86人)

* 资源编号:CLDC-SPC-2006-008 * 资源简介:录音人数:该产品共包括86个发音人(其中男性64人,女性22人)。发音人具有不同口音、年龄和文化层次;录音内容:每个发音人50句短信。产品容量:该产品的数据总量为205MB,共计3.7小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:4000人民币 * 会员优惠:参加中文语言资源联盟活动

桌面语音识别语音库——数字串(200人)

* 资源编号:CLDC-SPC-2006-010 * 资源简介:录音人数:该产品共包括200个发音人(其中男性87人,女性113人)。发音人具有不同口音、年龄和文化层次;录音内容:每个发音人录30句。产品容量:四个通道共6984MB,合计46小时。 单通道共1746MB,合计11.5小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:单一通道的数据费用为¥6000。每多购买1个通道增加费用¥1200。(共四个通道) * 会员优惠:参加中文语言资源联盟活动

桌面语音识别语音库——短信(120人)

* 资源编号:CLDC-SPC-2006-012 * 资源简介:录音人数:该产品共包括120个发音人(其中男性59人,女性61人)。发音人具有不同口音、年龄和文化层次;录音内容:50人:每个发音人120句短信;70人:每个发音人150句短信。产品容量:该产品数据的总量为:3277MB,合计21.7小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:统一价格:16000人民币 * 会员优惠:参加中文语言资源联盟活动

桌面语音识别语音库——人名、地名(70人)

* 资源编号:CLDC-SPC-2006-014 * 资源简介:录音人数:该产品共包括70个发音人(其中男性38人,女性32人)。发音人具有不同口音、年龄和文化层次;录音内容:发音人所录的内容包括四部分:人名、国家名、中国城市名、街道名、公司机构名、地理名六部分。为:60句人名+20句国家名+10句中国城市名+30句街道名+50公司机构名+10句地理名。产品容量:该产品数据的总量为:2228MB,合计15小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:统一价格:10000人民币 * 会员优惠:参加中文语言资源联盟活动

Page 13: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

桌面语音识别语音库——自由话题(50人)

* 资源编号:CLDC-SPC-2006-016 * 资源简介:录音人数:该产品共包括50个发音人(其中男性38人,女性32人)。发音人具有不同口音、年龄和文化层次;录音内容:每个发音人自由发挥12个话题。产品容量:该产品数据的总量为:2427MB,合计8小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:统一价格:15000人民币 * 会员优惠:参加中文语言资源联盟活动

汉语普通话语音合成语音库——附加库

* 资源编号:CLDC-SPC-2006-032 * 资源简介:录音人数:该产品的所有声音均为一名专业的播音员所录。录音内容:语句、数字串、生僻字、字母串、度量单位、轻声、儿化、希腊字母、疑问句、英文单词、模拟预订客房。产品容量:该产品包括7.6万字,分为8个文本。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:汉语普通话语音的合成 * 价格:统一价格:30000人民币 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

RASC863-G2——六大方言地方普通话语音语料库-朗读部分(粗标库) * 资源编号:CLDC-SPC-2007-002 * 资源简介:本语料库共有6个地方的数据(长沙、洛阳、南京、南昌、太原、温州)。包括朗读(语音平衡句子、常用口语句和信息通讯语句)部分。 * 开发单位:中国社会科学院 * 资源用途:语音分析、语音识别、语音合成、自然语言理解等 * 价格:中国大陆地区研究用:声音25RMB/份,标注10RMB/份。中国大陆地区赢利用:声音125RMB/份,标注50RMB/份。中国港澳台地区或国外研究用:声音50RMB/份,标注20RMB/份。中国港澳台地区或国外赢利用:声音250RMB/份,标注100RMB/份。份指每人的数据,每个方言点有200份,6地合计1200份。注:声音部分和朗读部分(粗标库)中对应发音人的声音是一样的,如果已经购买了粗标库声音就不必再购买精标库声音了。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 14: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2003年度863计划汉字识别评测数据

* 资源编号:2003-863-003 * 资源简介:包括大字库,小字库,乱笔顺库共100套。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:汉字识别 * 价格:大字库:中国大陆地区研究用:4000RMB;中国大陆地区商用:12000RMB;中国港澳台地区或国外研究用:4000USD;中国港澳台地区或国外商用:12000USD。小字库:中国大陆地区研究用:2000RMB;中国大陆地区商用:6000RMB;中国港澳台地区或国外研究用:2000USD;中国港澳台地区或国外商用:6000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2003年度863计划自动文摘评测数据

* 资源编号:2003-863-005 * 资源简介:语料包括10篇文章,字数从1755到4502不等。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:自动文摘 * 价格:免费 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2003年度863计划文本分类评测数据

* 资源编号:2003-863-007 * 资源简介:共3600篇文档。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所,中国科学院软件研究所开放系统与中文信息处理中心 * 资源用途:文本分类 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 15: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2004年度863计划机器翻译评测数据

* 资源编号:2004-863-001 * 资源简介:含中、英、日三个语种,对话、篇章两种类型,又细分为奥运、通用两个领域。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所,日本情报通信研究机构Keihanna情报通讯融合研究中心 * 资源用途:机器翻译 * 价格:共五个方向,每个方向:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD; * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2004年度863计划信息检索评测数据

* 资源编号:2004-863-003 * 资源简介:共30个查询。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所,北京大学计算机网络与分布式系统实验室,中国科学院软件研究所开放系统与中文信息处理中心 * 资源用途:信息检索 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2004年度863计划文本分类评测数据

* 资源编号:2004-863-005 * 资源简介:共3600篇文档。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所,中国科学院软件研究所开放系统与中文信息处理中心 * 资源用途:文本分类 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 16: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2004年度863计划语音合成评测数据

* 资源编号:2004-863-007 * 资源简介:各项中的语料均分为通用领域和奥运特定领域。包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所 * 资源用途:语音合成 * 价格:中国大陆地区研究用:500RMB;中国大陆地区商用:1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

面向奥运的中英日三语语料库

* 资源编号:2004-863-009 * 资源简介:语料包含旅游、餐饮、体育、交通、商务5个和奥运紧密相关的领域。全部语料完成了句子层次的对齐加工,并经过人工校对。语料标注采用xml格式,保留了原始语料的自然结构信息,如段落、对话的话轮结构、对话人数等;标注了语言发生的场景、言语主题等篇章信息。 * 开发单位:哈尔滨工业大学计算机学院语言技术研究中心 * 资源用途:本资源主要用于面向奥运的中英日三语间机器翻译系统的开发,特别是为系统的研制提供了面向口语处理的训练语料。同时对于其他中英日三语间的跨语言信息处理系统(如跨语言信息检索)的开发具有一定的应用价值。 * 价格:国内非赢利性用途:人民币2000元;国内赢利性用途:人民币25000元;国外非赢利性用途:人民币4000元;国外赢利性用途:人民币60000元。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 17: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

2005年度863计划信息检索评测数据

* 资源编号:2005-863-002 * 资源简介:共50个查询,包含本年度评测结果报告。详情请登陆网站http://www.863data.org.cn,查询相应的评测大纲。 * 开发单位:中国科学院计算技术研究所,中国科学院软件研究所开放系统与中文信息处理中心 * 资源用途:信息检索 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

2007年度SSMT机器翻译评测数据

* 资源编号:2007-863-001 * 资源简介:来源于SSMT2007第三届统计机器翻译研讨会机器翻译评测。包含SSMT2007汉英、英汉两个方向的机器翻译测试语料,篇章类型,来自新闻领域。含SSMT2007汉英方向词语对齐测试语料,提供分词之后汉英句对,来自新闻领域。另外,包含评测大纲、评测结果报告和评测软件。 * 开发单位:中国科学院计算技术研究所 * 资源用途:机器翻译 * 价格:机器翻译共两个翻译方向,每个翻译方向中国大陆地区研究用:1000RMB;中国大陆地区商用:3000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:3000USD。词语对齐,中国大陆地区研究用:500RMB;中国大陆地区商用:1500RMB;中国港澳台地区或国外研究用:500USD;中国港澳台地区或国外商用:1500USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 18: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

现代汉语语法信息词典(高频词)

* 资源编号:CLDC-LAC-2003-002 * 资源简介:该词典是一个"高频词语语法知识库"。规模是28000词。该版本的《现代汉语语法信息词典》除包含《现代汉语语法信息词典》(书面发行版)中的全部语法属性信息外,还增加两项新的有价值的信息。第一、考虑了词性的词频(《人民日报》词性标注语料库中的);第二、从《人民日报》选取的实际的典型的例句。每个词有3-5个例句。 * 开发单位:北京大学计算语言学研究所 * 资源用途:自然语言理解 * 价格:中国大陆地区研究用--4000RMB;中国港澳台地区或国外研究用--4000USD;中国大陆地区商用--16000RMB;中国港澳台地区或国外商用--16000USD。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 19: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

中英句子级对齐双语语料库

* 资源编号:CLDC-LAC-2003-004 * 资源简介:本资源是在国家973子课题支持下建立的。开发人员参照都柏林核元数据元素集制定了双语语料文本标注规范,并对非限定领域双语句子自动对齐技术进行了研究,建立了大规模、具有统一标准和规范、多领域、多体裁的句子级对齐的双语语言信息和知识库。 * 开发单位:中国科学院自动化研究所和中国科学院计算技术研究所 * 资源用途:为基于统计的各种双语语言建模、分析提供必要的训练数据。以及为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。 * 价格:中国大陆地区研究用--3000RMB;中国港澳台地区或国外研究用--3000USD. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

汉英/汉日双语语料库

* 资源编号:CLDC-LAC-2003-006 * 资源简介:汉英句子级对齐语料20万句对;汉日句子级对齐语料2万句对;汉英词汇级对齐语料1万句对。 * 开发单位:北京大学计算语言研究所 * 资源用途:机器翻译、文本分析 * 价格:汉日句对齐:中国大陆地区研究用--2000RMB;中国港澳台地区或国外研究用--10000RMB。汉英句对齐:中国大陆地区研究用--6000RMB;中国港澳台地区或国外研究用--20000RMB * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

特定场景特定领域对话语料库

* 资源编号:CLDC-LAC-2003-008 * 资源简介:包括餐饮、交通、体育、天气4种场景下各100个对话。其中包含部分英语对话(约5%)。对话全部由两个人进行,一男一女,每个对话的长度由2句至20句不等。 * 开发单位:中国科学院计算技术研究所 * 资源用途:对话系统、文本分析 * 价格:国内研究用:2000RMB;国内赢利用:6000RMB;国外研究用:2000USD;国外赢利用:6000USD; * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

中国地名机构名库

* 资源编号:CLDC-LAC-2005-015 * 资源简介:中国地名、机构组织名库(按省查询),带有拼音标注信息。 * 开发单位:中国科学院自动化所 * 资源用途:中国地名、机构组织名查询 * 价格:国内非赢利性用途 2000RMB,国内赢利性用途 10000 RMB,国外非赢利性用途 2000USD,国外赢利性 10000 USD. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 20: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

国家语委现代汉语通用平衡语料库(分词和词性标注语料库)

* 资源编号:CLDC-LAC-2006-002 * 资源简介:汉语教学与研究、信息处理等 * 开发单位:教育部语言文字应用研究所 * 资源用途:汉语教学与研究、信息处理等 * 价格:中国大陆地区研究用--30000RMB;中国港澳台地区或国外研究用--30000RMB;中国大陆地区商用:60000RMB;中国港澳台地区或国外商用:60000RMB. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

国家语委现代汉语通用平衡语料库(分词词表)

* 资源编号:CLDC-LAC-2006-004 * 资源简介:汉语教学与研究、信息处理等 * 开发单位:教育部语言文字应用研究所 * 资源用途:汉语教学与研究、信息处理等 * 价格:中国大陆地区研究用:10000RMB;中国大陆地区商用:20000RMB;中国港澳台地区或国外研究用:10000RMB;中国港澳台地区或国外商用:20000RMB * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

动词重叠形式实例库

* 资源编号:CLDC-LAC-2007-001 * 资源简介:动词重叠形式实例库主要是从中国现代名家小说文本库(19,571,772字)、当代大陆小说文本库(79,823,054字)提取出来的多种动词重叠形式的使用例句。其中动词重叠形式有十种. * 开发单位:北京语言大学语言信息处理研究所 * 资源用途:文本校对、机器翻译、语音处理等 * 价格:中国大陆地区研究用:1000RMB;中国大陆地区商用:8000RMB;中国港澳台地区或国外研究用:1000USD;中国港澳台地区或国外商用:8000USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

公务员用语(单一版本)

* 资源编号:CLDC-LAC-2008-002 * 资源简介:国家行政机关常用短语,内容包括党的机关、国家机关(如人大、政府、军队、法院、检察院等)、政协和民主党派机关等等,包括职务、机构、领域高频词等等。资源质量:由于出书的需要,全部词语由个人历经三年人工挑选出,准确率几乎达100%。 * 开发单位:朱定福 * 资源用途:可用于机器翻译、信息检索和命名实体识别。 * 价格:统一价格800元人民币 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 21: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

CASIA天气预报广播语音库

* 资源编号:CLDC-SPC-1999-018 * 资源简介:天气预报领域的广播录音58段,录音时间约3小时。 * 开发单位:中国科学院自动化研究所 * 资源用途:语音识别、对话系统、语音合成 * 价格:中国大陆地区研究用--400RMB;中国港澳台地区或国外研究用--1600RMB;中国大陆地区商用:4000RMB;中国港澳台地区或国外商用:8000RMB. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

自然广播语流语料库

* 资源编号:CLDC-SPC-2003-001 * 资源简介:该语料是在863课题支持下,针对影响语流基频和时长信息的各种因素,建立了包含4个播音员(男女声各2人),以广播语气为主,包括了疑问、感叹语气的大规模、多领域的自然广播语流语料库。文本语音数据,包括篇章549篇,语句4693句。 * 开发单位:中国科学院计算技术研究所 * 资源用途:语音识别、语音合成、语音分析、自然语言理解等 * 价格:语音和转写的文本:中国大陆地区研究用--4000RMB;中国港澳台地区或国外研究用--4000USD;转写的文本可用于商用:中国大陆地区赢利用--8000RMB;中国港澳台地区或国外赢利用--8000USD; * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

清华大学语音合成语料库

* 资源编号:CLDC-SPC-2003-009 * 资源简介:该语音合成语料库由三部分组成:1.普通话TTS系统语料库,为汉语普通话朗读语句,男女声各1人,共约10000句。2.普通话TTS系统测试语料库,为汉语普通话朗读语句,男女声各1人,约2000句。3.普通话语调分析用数据,自然对话语句,多于1000句,覆盖多种语调和语气。 * 开发单位:清华大学人机交互与媒体集成研究所 * 资源用途:语音合成、语音分析、韵律研究 * 价格:中国大陆地区研究用:10000RMB;中国大陆地区商用:20000RMB;中国港澳台地区或国外研究用:6000USD;中国港澳台地区或国外商用:12000USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 22: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

RASC863——四大方言普通话语音语料库--口语独白部分(粗标库)

* 资源编号:CLDC-SPC-2004-003 * 资源简介:RASC863包括自然口语(口语独白和常见问题回答)和朗读(语音平衡句子、常用口语句和常用方言词汇)两大部分。自然口语部分分为依据话题的口语独白和回答问题两个部分。口语独白部分是由发音人从事先准备的160个话题中任意选择一个,然后讲述3-5分钟相关内容;回答问题部分是由每个发音人回答15个常见问题。 * 开发单位:中国社会科学院语言研究所 * 资源用途:语音分析、语音识别、语音合成、自然语言理解等 * 价格:中国大陆地区研究用:声音3RMB/份,标注15RMB/份。中国大陆地区赢利用:声音15RMB/份,标注75RMB/份。中国港澳台地区或国外研究用:声音6RMB/份,标注30RMB/份。中国港澳台地区或国外赢利用:声音30RMB/份,标注150RMB/份。份指每人的数据,每个方言点有 200份,4地合计800份。注:声音部分和朗读部分(粗标库)中对应发音人的声音是一样的,如果已经购买了粗标库声音就不必再购买精标库声音了。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

RASC863——四大方言普通话语音语料库--朗读部分(精标库) * 资源编号:CLDC-SPC-2004-005 * 资源简介:RASC863包括自然口语(口语独白和常见问题回答)和朗读(语音平衡句子、常用口语句和常用方言词汇)两大部分。自然口语部分分为依据话题的口语独白和回答问题两个部分。语料精标注部分包括:回答问题、口语常用句子、语音平衡句子等;标注包括汉字、有时间切分点的音节层、实际发音的声韵母层等标注。 * 开发单位:中国社会科学院语言研究所 * 资源用途:语音分析、语音识别、语音合成、自然语言理解等 * 价格:中国大陆地区研究用:声音25RMB/份,标注75RMB/份。中国大陆地区赢利用:声音125RMB/份,标注375RMB/份。中国港澳台地区或国外研究用:声音50RMB/份,标注150RMB/份。中国港澳台地区或国外赢利用:声音250RMB/份,标注750RMB/份。份指每人的数据,每个方言点有200份,4地合计800份。注:声音部分和朗读部分(粗标库)中对应发音人的声音是一样的,如果已经购买了粗标库声音就不必再购买精标库声音了。 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

CASIA汉语数字串语音库

* 资源编号:CLDC-SPC-2004-014 * 资源简介:连续语音数字串。包括55个男声数据,每人有80个数字串,串长从1到7不等,每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样,包含丰富的协同发音现象。录音时间约100分钟。 * 开发单位:中国科学院自动化研究所 * 资源用途:数字识别及其在各种实际应用,包括电话语音拨号,家电语音遥控,身份证号码自动输入,数据校对等。 * 价格:中国大陆地区研究用--500RMB;中国港澳台地区或国外研究用--2000RMB;中国大陆地区商用:5000RMB;中国港澳台地区或国外商用:10000RMB. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 23: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

CASIA南方口音语音库

* 资源编号:CLDC-SPC-2004-014 * 资源简介:连续语音数字串。包括55个男声数据,每人有80个数字串,串长从1到7不等,每个数字出现的次数及其出现在串首、串中和串尾的比例几乎一致。任何两个数字相连出现的次数也一样,包含丰富的协同发音现象。录音时间约100分钟。 * 开发单位:中国科学院自动化研究所 * 资源用途:数字识别及其在各种实际应用,包括电话语音拨号,家电语音遥控,身份证号码自动输入,数据校对等。 * 价格:中国大陆地区研究用--500RMB;中国港澳台地区或国外研究用--2000RMB;中国大陆地区商用:5000RMB;中国港澳台地区或国外商用:10000RMB. * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

CASIA汉语情感语料库

* 资源编号:CLDC-SPC-2005-010 * 资源简介:共包括四个专业发音人,六种情绪,共9,600句不同发音,包括300句相同文本和100句不同文本,可供各种分析实验使用 * 开发单位:中国科学院自动化所 * 资源用途:为研究情感语音所设计的语料 * 价格:中国大陆地区研究用:5000RMB;中国大陆地区商用:15000RMB;中国港澳台地区或国外研究用:5000USD;中国港澳台地区或国外商用:15000USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

CADCC-汉语普通话自然口语对话语料库

* 资源编号:CLDC-SPC-2005-012 * 资源简介:ASCCD朗读语篇语料库由语篇语料、语音数据和语音学标注信息组成,适用于语言语音研究、语音工程开发和基础汉语普通话教学等领域。 * 开发单位:中国社会科学院语言所语音研究室 * 资源用途:用于语言语音研究、语音工程开发和基础汉语普通话教学等领域 * 价格:中国大陆地区研究用:9000RMB;中国大陆地区商用:45,000RMB;中国港澳台地区或国外研究用:4,500USD;中国港澳台地区或国外商用:22,500USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

WCSC——汉语普通话两音节语音语料库

* 资源编号:CLDC-SPC-2005-015 * 资源简介:汉语普通话两音节语音语料库由汉语两音节语音数据、两音节语料表及管理软件组成,适用于语言语音研究、语音工程开发和基础汉语普通话教学等领域。 * 开发单位:中国社会科学院语言所语音研究室 * 资源用途:用于语言语音研究、语音工程开发和基础汉语普通话教学等领域 * 价格:中国大陆地区研究用:1,800RMB;中国大陆地区商用:9,000RMB;中国港澳台地区或国外研究用:900USD;中国港澳台地区或国外商用:4,500USD * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

Page 24: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

电话语音识别语音库——人名、地名(手机265人)

* 资源编号:CLDC-SPC-2006-003 * 资源简介:录音人数:该产品共包括265个发音人(其中男性134人,女性131人)。发音人具有不同口音、年龄和文化层次;录音内容:201人:数字串30句; 64人:数字串25句。该产品的数据总量为648MB,共计11.8小时 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:9000人民币 * 会员优惠:参加中文语言资源联盟活动

电话语音识别语音库——数字串(手机265人)

* 资源编号:CLDC-SPC-2006-003 * 资源简介:录音人数:该产品共包括265个发音人(其中男性134人,女性131人)。发音人具有不同口音、年龄和文化层次;录音内容:201人:数字串30句; 64人:数字串25句。该产品的数据总量为648MB,共计11.8小时 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:9000人民币 * 会员优惠:参加中文语言资源联盟活动

电话语音识别语音库——股票(手机265人)

* 资源编号:CLDC-SPC-2006-006 * 资源简介:录音人数:该产品共包括285个发音人(其中男性144人,女性141人)。发音人具有不同口音、年龄和文化层次;录音内容:199人:股票30句(每句2个股票名);产品容量:该产品的数据总量为373MB,共计7小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:7000人民币 * 会员优惠:参加中文语言资源联盟活动

电话语音识别语音库——短信(手机64人)

* 资源编号:CLDC-SPC-2006-007 * 资源简介:录音人数:该产品共包括64个发音人(其中男性52人,女性12人)。发音人具有不同口音、年龄和文化层次;录音内容:每个发音人50句短信。该产品的数据总量为161MB,共计3小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:电话语音识别 * 价格:统一价格:4000人民币 * 会员优惠:参加中文语言资源联盟活动

Page 25: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

桌面语音识别语音库——短信(200人)

* 资源编号:CLDC-SPC-2006-009 * 资源简介:录音人数:该产品共包括200个发音人(其中男性87人,女性113人)。发音人具有不同口音、年龄和文化层次;录音内容:每个发音人录120句。产品容量:四个通道共21504MB,合计142.4小时。单通道共5376MB,合计35.6小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:单一通道的数据费用为¥26000。每多购买1个通道增加费用¥5200。(共四个通道) * 会员优惠:参加中文语言资源联盟活动

桌面语音识别语音库——人名、地名(10人)

* 资源编号:CLDC-SPC-2006-011 * 资源简介:录音人数:该产品共包括10个发音人(其中男性3人,女性7人)。发音人具有不同口音、年龄和文化层次;录音内容:发音人所录的内容包括四部分:股票、国家名、人名、中国城市名。为: 30句股票+10句国家名+30句人名+10句中国城市名。产品容量:四个通道共587MB,合计3.9小时。单通道共147MB,合计0.97小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:单一通道的数据费用为¥500。每多购买1个通道增加费用¥100。(共四个通道) * 会员优惠:参加中文语言资源联盟活动

桌面语音识别语音库——数字串(120人)

* 资源编号:CLDC-SPC-2006-013 * 资源简介:录音人数:该产品共包括120个发音人(其中男性59人,女性61人)。发音人具有不同口音、年龄和文化层次;录音内容:每个发音人读30句数字串。产品容量:该产品数据的总量为:945MB,合计6.2小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:统一价格:3000人民币 * 会员优惠:参加中文语言资源联盟活动

桌面语音识别语音库——股票(70人)

* 资源编号:CLDC-SPC-2006-015 * 资源简介:录音人数:该产品共包括70个发音人(其中男性38人,女性32人)。发音人具有不同口音、年龄和文化层次;录音内容:每个发音人读60句股票。产品容量:该产品数据的总量为:776MB,合计5.1小时。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:桌面语音识别 * 价格:统一价格:3000人民币 * 会员优惠:参加中文语言资源联盟活动

Page 26: 中文语言资源联盟资源目录  · casia汉语多音字语料库 * 资源编号:cldc-lac-2006-005 * 资源简介:包括45个常见多音字,每个多音字的句子数,从2,000到10,000句不等,

汉语普通话语音合成语音库——基本库

* 资源编号:CLDC-SPC-2006-031 * 资源简介:录音人数:该产品的所有声音均为一名专业的播音员所录。录音内容:语句、数字串、生僻字、字母串、度量单位、轻声、儿化、希腊字母、疑问句、英文单词、模拟预订客房。产品容量:该产品包括11万字,分为20个文本。 * 开发单位:北京海天瑞声科技有限公司 * 资源用途:汉语普通话语音的合成 * 价格:统一价格:70000人民币 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行

RASC863-G2——六大方言地方普通话语音语料库-口语部分(粗标库)

* 资源编号:CLDC-SPC-2007-001 * 资源简介:本语料库共有6个地方的数据(长沙、洛阳、南京、南昌、太原、温州)。包括自然口语部分(口语独白和常见问题回答)部分。自然口语部分分为依据话题的口语独白和回答问题两个部分:口语独白部分是由发音人从我们事先准备的160个话题中任意选择一个,然后讲述3-5分钟相关内容;回答问题部分是由每个发音人回答23个常见问题。 * 开发单位:中国社会科学院 * 资源用途:语音分析、语音识别、语音合成、自然语言理解等 * 价格:中国大陆地区研究用:声音3RMB/份,标注15RMB/份。中国大陆地区赢利用:声音15RMB/份,标注75RMB/份。中国港澳台地区或国外研究用:声音6RMB/份,标注30RMB/份。中国港澳台地区或国外赢利用:声音30RMB/份,标注150RMB/份。份指每人的数据,每个方言点有 200份,6地合计1200份。注:声音部分和朗读部分(粗标库)中对应发音人的声音是一样的,如果已经购买了粗标库声音就不必再购买精标库声音了 * 会员优惠:参照中文语言资源联盟的会员优惠政策执行