北京语言大学语料库资源
汉语历时大数据-DCC
国家语言资源动态流通语料库,100亿字次,十年以上完整语料。
传统文化历时语料库-CCC
易经,道德经,论语、庄子等传统文化历时流通语料库及可视化检索
BCC现代汉语语料库
BCC现代汉语语料库,总字数约 150 亿字,包括:报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。
HSK动态作文语料库
“HSK动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK高等)作文考试的答卷语料库。收集了1992-2005年的部分外国考生的作文答卷。语料库1.0版收入语料10740篇,约400万字,于2006年12月下旬上网试运行。经修改补充,语料库1.1版语料总数达到11569篇,共计424万字。语料库提供给用户的作文语料有两种版本:标注语料和原始语料。标注语料是把考生作文答卷人工录入电脑并经人工标注各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。
北京口语语料查询系统
“北京口语语料查询系统”(BJKY)包括184万字据录音转写、校对、整理后的北京口语语料。
中国语言资源保护工程资源库
中国语言资源库
语言国情库
(1)当地的地理、历史沿革、行政区划、人口、民族、交通等基本情况。
(2)当地的汉语方言的种类、分布、人口、使用和变化情况。
(3)当地的少数民族语言的种类、分布、人口、使用和变化情况。
汉语方言库
(1)单字
(2)词汇
(3)语法例句
(4)文献(包括文献目录与具体内容,具体内容也可分别融入到前面的字、词汇、例句、语篇中,但目录是独立的)
(5)文字(特殊的方言用字)
说明:字、词汇、例句等之间不是简单的包含与被包含关系,因此应处理为不同的数据表,而不是在一个表中。少数民族语言库同。
少数民族语言库
(1)词汇
(2)语法例句
(3)文献(包括目录与内容)
(4)文字(民族文字)
语言文化库
(1)汉语方言和少数民族语言口头文化
(2)用汉语方言和民族语言表达的民俗事物和民俗活动。
中国语言资源有声数据库
上海语言资源有声数据库展示系统
上海的建库工作自2011年3月启动,2014年12月完成。主要任务是调查采集上海行政区域内各区、县的方言和地方普通话的有声数据。建库工作由上海市语言文字工作委员会统筹领导,由复旦大学、华东师范大学、上海大学和上海师范大学等四所高校的专家团队具体实施。
本系统汇总合成了上海各调查采录点的有声数据。
江苏语言与文化资源库
数据库中共有70个汉语方言调查点,其中江淮方言41个点,吴方言19个点,中原官话10个点。