BCC语料库

提供者:肖丹、马路遥

一、资源名称

  • BCC语料库

二、链接

三、简介

北京语言大学语料库中心(BLCU Corpus Center,简称BCC)是以汉语为主、兼有英语和法语的在线语料库,是服务语言本体研究和语言应用研究的在线大数据系统。BCC语料库总字数约 150 亿字,包括报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料,是可以全面反映当今社会语言生活的大规模语料库。BCC语料库具有数据量大、领域广和检索便捷等优点。目前,已经支持了百余篇论文的发表。

  • 以汉语为主,兼有其他语种的语言大数据;
  • 为语言本体研究提供在线检索系统;
  • 为语言本体研究提供建构大数据的语言应用平台;
  • 支持云服务;
  • 通过API调用方式为开展知识抽取、模型构建提供便利。

四、教程

(1)在线检索

  1. 统计
    BCC检索式中可以包含词性或短语类型,也可以带通配符。
    enter description here

  2. 筛选
    提供二次检索的功能,即在现有的返回结果中保留或者剔除符合检索式的语料实例,得到二次结果。

  3. 下载
    下载检索或统计结果

  4. 高级
    可以设置返回结果的显示形式;可以随机生成实例,如设定上下文显示字数,设定是否以句形式显示结果。
    enter description here

  5. 全文
    点击该按钮可以查看检索实例更多的上下文。
    enter description here

(2)BCC检索式

  1. 汉字串(或者词串)
    enter description here

  2. 属性符号
    enter description here

  3. 通配符“.”、“@”、“~”
    enter description here

  4. 集合符号“[]”
    enter description here

  5. 离合符号“*”

  6. 属性约束符号“/”
    enter description here

  7. 空格或者“+”

(3)检索功能

  • 检索式
    用户可以在搜索栏中输入检索式,点击“搜索”,进行查询。BCC检索式由字、词和语法标记等单元组成,并且支持通配符和离合查询。

    词性符号 :输入词性符号,可按照词性符号进行检索。BCC中汉语语料库采用北京大学的词性体系,英语语料库采用美国宾州大学的词性体系。
    空格 :隔开2个词性符号
    . :表示一个字符
    ~ :表示一个词
    * :用于检索离合的语言片段,例,洗*澡,符合检索式的实例可为“洗一个痛快澡”、“洗一个舒服澡”等。
    / :限制/前的连续串是具有某种词性的词,例,../v ,表示双音节动词。

  • 检索设置
    点击“多领域”,检索结果将包含报刊、微博等全部领域的检索结果。用户也可以选择在某一领域中检索。选择“自定义”,可以进一步细化某一领域的检索范围,例如,检索范围可细化到文学领域下的《红楼梦》(仅限平台提供的语料)。

  • 历时检索
    在搜索栏输入字符串,可返回该字符串在历年语料中的频次。结果以图表形式呈现,用户可下载。

  • 检索结果处理
    每条检索结果包含符合检索式的实例以及上下文信息,用户可以再次基础上进行统计并下载相关结果。

    • 统计
      选择“统计”,可对语料中检索式描述的实例进行统计,用户可以下载统计结果。
    • 筛选
      选择“筛选”,在弹出窗口中输入某一字符串,选择“保留”或者“排除”,可以返回保留或者排除初次检索结果中含有该字符串的检索结果。
    • 下载
      选择“下载”,用户可以下载1000条检索结果。
    • 高级
      选择“高级”,用户可以设置上下文字数、显示顺序等。

(4)对比功能

进入“对比”功能,选择“单一来源”,可返回2个检索式在某一领域中的查询结果,结果以词云形式呈现。检索领域可以由用户自定义。
选择“两个来源”,可返回1个检索式在2个不同领域中的检索结果,结果以词云形式呈现。

五、相关论文

(1)荀恩东 饶高奇 肖晓悦 臧娇娇. 大数据背景下BCC语料库的研制[J].语料库语言学,2016.