Freebase数据集介绍

数据集地址
freebase数据集:Data Dumps  |  Freebase API (Deprecated)  |  Google Developers
FB15K数据集:en:transe [Everest] (utc.fr)
FB15K-237:TimDettmers/ConvE: Convolutional 2D Knowledge Graph Embeddings resources (github.com)

基本介绍

Freebase是一个由Google创建的庞大、多领域的知识图谱数据集,收集了大量的实体、属性和关系信息。
Freebase包含超过2.5亿个实体,其中每个实体都由一个唯一的ID标识,并与其他实体之间通过数千个关系进行连接。这些关系可以是人物的职业、国家的首都、电影的导演等等。实体和关系都有一个或多个属性,用于描述它们的特征和属性,如人物的出生日期、国家的面积和电影的上映时间等。
Freebase数据集的形式非常灵活,可以通过API或下载方式获取。它已被广泛用于机器学习、自然语言处理、信息检索和知识图谱等领域的研究和应用。然而,由于一些原因,Google于2016年关闭了Freebase,并将其数据迁移到了Wikidata中。

1、数据展示

Freebase包含了大量的实体、属性和关系信息,其中一些比较有名的数据包括:

  • 实体:美国总统奥巴马(/m/02mjmr)、苹果公司(/m/0k8cd)、巴黎圣母院(/m/01_5g)等。
  • 属性:奥巴马的出生日期(/people/person/date_of_birth)、苹果公司的创始人(/business/company/founders)、巴黎圣母院的建成时间(/architecture/structure/building_commission_date)等。
  • 关系:奥巴马的妻子(/people/person/spouse_s)、苹果公司的总部所在地(/business/company/headquarters)、巴黎圣母院的建筑风格(/architecture/building/architectural_style)等

:“ / ” 类似于Web上的URI,可以用来标识一个特定的资源或概念。
        使用“/”符号作为字符串ID的分隔符,有助于将不同的实体、属性和关系进行区分和分类,并且可以方便地将它们组织成一个树形结构或者图形结构。这种结构化的形式也使得Freebase数据可以更方便地被处理和查询。

除此之外,Freebase还包含了大量的音乐、电影、书籍、地理位置、历史事件等领域的数据。这些数据可以被用来构建知识图谱,支持各种知识图谱相关的应用和研究。

2、扩展数据

FB15K

FB15k是一个基于Freebase数据集构建的知识图谱数据集,由Bordes等人在2013年创建。它是一个包含15,000个三元组的数据集,其中包括11,000个训练三元组、2,000个验证三元组和2,000个测试三元组。

FB15k的三元组包括头实体、关系和尾实体,例如(/m/01lsmm,/location/country/capital,/m/02hrh0)表示一个国家(/m/01lsmm)和它的首都(/m/02hrh0)之间的关系。FB15k覆盖了多个领域,包括人物、组织、地点、电影、书籍、音乐等。

FB15k数据集已经成为知识图谱嵌入模型(如TransE、TransH、TransR等)的常用基准数据集,用于评估这些模型在多关系数据建模任务上的性能。对于研究者来说,FB15k数据集提供了一个标准化的实验环境,可以方便地比较不同模型在同一任务上的表现。

FB15K-237

FB15k-237是FB15k数据集的一个扩展版本,由Toutanova等人在2015年发布。与FB15k不同,FB15k-237只包含237个关系,但是包含更多的三元组(共310,116个三元组),其中包括272,115个训练三元组、17,535个验证三元组和20,466个测试三元组。

FB15k-237的关系是从原始的FB15k数据集中筛选出来的,保留了那些至少有50个训练三元组的关系。这些关系包括人物、组织、地点、电影、书籍、音乐等多个领域,但是相对于原始的FB15k数据集,覆盖的领域更加广泛。

FB15k-237数据集同样被广泛应用于知识图谱嵌入模型的评估和比较。与原始的FB15k数据集相比,FB15k-237在评估关系预测性能时更加严格,因为其关系更少但是三元组更多,这也使得它成为知识图谱嵌入模型评估的一种更加挑战性的数据集。

对比

  1. 关系数量不同:FB15K包含了15000个三元组,涵盖了约1400个关系,而FB15K-237只包含了237个关系,但是有着更多的三元组(共310,116个三元组)。

  2. 关系的选取不同:FB15K包含了Freebase数据集中出现的所有关系,而FB15K-237从FB15K中筛选出了那些至少有50个训练三元组的关系,保留了237个关系。

  3. 难度程度不同:由于FB15K-237在关系数量上更少但三元组数量更多,因此相对于FB15K,FB15K-237在知识图谱嵌入模型的评估上更加严格和挑战性更高。

  4. 应用领域不同:由于关系数量和类型的不同,FB15K和FB15K-237在应用领域方面也有所不同。例如,FB15K中的关系类型更加多样化,包括影视、音乐、人物、组织、地点等多个领域,而FB15K-237则更加注重自然语言推理和问答等领域的应用。

3、一些数据格式

real_name_index 实体索引

第一列表示实体唯一ID号,第二列为实体名。

path_relation_index    关系路径索引

是Freebase中的一个索引文件,用于记录两个实体之间的关系路径。

以下是path_relation_index文件中的一个示例行:

"/m/06t8y"	"/m/0dgr0"	"/people/person/place_of_birth|/people/person/nationality|/people/person/profession"

 这个示例行表示实体 "/m/06t8y" 和实体 "/m/0dgr0" 之间存在一条关系路径,路径上的关系依次为"/people/person/place_of_birth"、"/people/person/nationality"和"/people/person/profession"。这些关系表示,实体"/m/06t8y"出生在某个地方,是某个国家的国民,从事某个职业,而实体 "/m/0dgr0" 就是这个国家。

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值