数据集-知识图谱:FreeBase(通用知识图谱)【英文】

基于知识图谱的问答系统(Knowledge-based Question Answering,KBQA),这个领域的论文大多是基于 Freebase 的。

Freebase 作为典型的知识图谱,其采用结构化的数据形式(Wikipedia并不是)。Freebase 的内容主要源于 Wikipedia、NNDB、MusicBrainz 以及社会用户的贡献。该项目由 MetaWeb 公司在2005年启动,Google于2010年收购了该公司,并将 Freebase 作为Google知识图谱的核心部分。2016年8月,Google停止了对 Freebase 的维护,并将其整体迁移合并到 WikiData 项目中[1]。目前我知道的有以下几种方法获取到 Freebase 数据。

  1. Freebase Data Dump:Freebase 官网提供 N-Triple RDF格式(.nt文件)的数据压缩包的下载,整个压缩包30G,解压后300G+。下载后,可以用压缩软件解压,也可以通过编程工具(比如Java的GzipInputStream)边读取边解压。[2][3] (我并没有尝试这个方法)
  2. FB2M和FB5M:FB2M和FB5M是 Freebase 的两个子集,其中 FB2M 含有2M实体和5k实体关系,FB5M含5M实体和7k实体关系。CSDN上有这个两个文件的下载链接,其中使用 FB5M 还需要下载一个 FB5M 中 entity linke 到 entity name 的映射文件来将语料集的 link 替换掉[4](参考文章[4]中作者也提供了3个文件的下载链接,但可能过期)。下载之后三个文件都是 txt 文件,需要转换为 RDF 格式,文章后面会介绍如何转换为 RDF 格式并配合 Virtuoso 使用,我暂时只处理了 FB2M 数据,所以只说明 FB2M 数据的处理。
  3. FB15K和FB15K-237:FB15K 也是 Freebase 的子集,而FB15K-237 是 FB15K 的子集。这部分我暂时没有去了解,只提供一个下载链接Download FB15K-237 Knowledge Base Completion Dataset from Official Microsoft Download Center,和链接中对该数据集的一段描述:This dataset contains knowledge base relation triples and textual mentions of Freebase entity pairs, as used in the work published in (Toutanova and Chen CVSM-2015) and (Toutanova et al. Last published: October 30, 2015.

freebase的entity id到真实数据的映射 数据集

...
/m/01jzhl	Colin Pine
/m/01jzhl	Yaoming
/m/01jzhl	姚明
/m/01jzhl	Ming Yao
/m/01jzhl	Yow Ming
/m/01jzhl	Yáo Míng
/m/01jzhl	Yao ming
/m/01jzhl	Yao Zhiyuan
/m/01jzhl	Yao Meng
/m/01jzhl	Yoa ming
/m/01jzj2	Brown hydroboration
/m/01jzj2	Hydroboration-oxidation
/m/01jzj2	Hydroboration–oxidation
/m/01jzj2	Hydroboration
/m/01jzj2	Hydroboration-oxidation reaction
/m/01jzjh	Substitution boxes
/m/01jzjh	S-Box
/m/01jzjh	Sbox
/m/01jzjh	Cryptography/s-box
/m/01jzjh	S Box
/m/01jzjh	SBox
/m/01jzjh	S box
/m/01jzjh	S-boxes
/m/01jzjh	S-table
/m/01jzj_	Korn Ferry International
/m/01jzj_	Korn/Ferry International
/m/01jzkb	American Basketball League (1961-1963)
/m/01jzkb	American Basketball League 1961-63
/m/01jzkp	Neil Arthur
/m/01jzkp	Stephen Luscombe
/m/01jzl2	CAST-5
/m/01jzl2	CAST5
/m/01jzlw	Taxonomy of the carcharhiniformes
/m/01jzlw	Taxonomy of the Carcharhiniformes
/m/01jzlw	Shark taxonomy Order Carcharhiniformes
/m/01jzlw	List of species of the order Carcharhiniformes
/m/01jzlw	Ground sharks
/m/01jzlw	Whaler sharks
/m/01jzlw	Shark taxonomy Order Carcharhiniformes (cont.)
/m/01jzlw	Groundshark
/m/01jzm9	Hók-ciŭ
/m/01jzm9	Fujhou
/m/01jzm9	Fuzhou City
/m/01jzm9	Fuzhou, Fujian
/m/01jzm9	Hokchew
/m/01jzm9	Hockchew
/m/01jzm9	Fuh-Chau
/m/01jzm9	Fuchow
/m/01jzm9	福州
/m/01jzm9	Foochow
/m/01jzm9	Fu Zhou
/m/01jzm9	Fuhchau
/m/01jzm9	Foochow (disambiguation)
/m/01jzm9	Hock Chew
/m/01jzm9	Fúzhou
/m/01jzm9	Foo Chow
/m/01jzm9	福州市
/m/01jzm9	Fu-chou
/m/01jzm9	Fu zhou
/m/01jzm9	Fuzhou, China
/m/01jzm9	Fuzhou Municipality
/m/01jzm9	Fuchou
/m/01jzm9	Fuh Chau
/m/01jzm9	Fu-Chou
...



Freebase及其处理和导入数据库
Freebase Data Dump结构初探
Freebase Data Dump 结构初探(二)——浅析元信息
freebase的entity id到真实数据的映射 数据集
Freebase API (Deprecated)

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值