网络知识 娱乐 大规模1.4亿中文知识图谱数据,我把它开源了

大规模1.4亿中文知识图谱数据,我把它开源了

人工智能从感知阶段逐步进入认知智能的过程中,知识图谱技术将为机器提供认知思维能力和关联分析能力,可以应用于机器人问答系统、内容推荐等系统中。

不过要降低知识图谱技术应用的门槛,也需要公共平台上沉淀的各种数据和技术。要构建知识生态,共同贡献知识是关键。

现在,一个名为 OwnThink 的平台在 GitHub 上开源了中文知识图谱项目,这也是目前已开源的最大规模的中文知识图谱,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式,总共有 1.4 亿个三元组。

AI科技大本营(ID:rgznai100)采访了该知识图谱开源项目的算法工程师 Yener,他是开源平台 OwnThink 的作者,主要从事知识图谱、对话机器人、语义理解方面的研究。他表示,知识图谱的开发过程是一个标准的百科知识图谱构建流程,数据抽取来源于结构化数据、半结构化数据、非结构化数据,对各大百科进行抽取后,再对知识进行融合、实时更新等一系列操作。

这个项目究竟怎样?先给出 GitHub 链接:

https://github.com/ownthink/KnowledgeGraphData

在其官网上,AI科技大本营尝试使用了其知识图谱功能窗口。在输入“周杰伦”后,会看到与其相关的大量链接实体。

值得一提的是,除了开源知识图谱项目外,OwnThink 平台还开放了对话机器人、语义理解、自然语言处理工具。机器人采用了基于知识图谱的语义感知与理解,自然语言处理工具包的功能有:中文分词、词性标注、命名实体识别、关键词提取、文本摘要、新词发现、情感分析等。

以下为其 1.4 亿知识图谱数据下载途径,同时还可以从网站上获取歧义关系、获取实体知识、获取属性值。

数据下载方式:

百度网盘链接:

https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp

注:解压密码是 OwnThink 首页地址:https://www.ownthink.com/

解压后查看知识图谱规模:

$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

查看知识图谱数据:

$ head ownthink_v2.csv
实体,属性,值
胶饴,描述,别名: 饴糖、畅糖、畅、软糖。
词条,描述,词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。
词条,标签,文化
红色食品,描述,红色食品是指食品为红色、橙红色或棕红色的食品。
红色食品,中文名,红色食品
红色食品,是否含防腐剂,否
红色食品,主要食用功效,预防感冒,缓解疲劳
红色食品,适宜人群,全部人群
红色食品,用途,增强表皮细胞再生和防止皮肤衰老

使用 python 进行读取测试:

import sys
import csv

with open('ownthink_v2.csv', 'r', encoding='utf8') as fin:
  reader = csv.reader(fin)
  for index, read in enumerate(reader):
    print(read)
    
    if index > 10:
      sys.exit(0)

运行以上脚本输出结果:

['实体', '属性', '值']
['胶饴', '描述', '别名: 饴糖、畅糖、畅、软糖。']
['词条', '描述', '词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。']
['词条', '标签', '文化']
['红色食品', '描述', '红色食品是指食品为红色、橙红色或棕红色的食品。']
['红色食品', '中文名', '红色食品']
['红色食品', '是否含防腐剂', '否']
['红色食品', '主要食用功效', '预防感冒,缓解疲劳']
['红色食品', '适宜人群', '全部人群']
['红色食品', '用途', '增强表皮细胞再生和防止皮肤衰老']
['红色食品', '标签', '非科学']
['红色食品', '标签', '生活']

以下为AI科技大本营对 OwnThink 平台的作者 Yener 的对话内容:

AI科技大本营:知识图谱项目是如何启动的?您一个人开发吗?服务器资源及维护费用如何解决?

Yener:我是一名人工智能爱好者,在人工智能方面不断努力着,希望有一天能够出现独立思考的人工智能机器人。为了能够实现这样的机器人,自己经常在思考,人是如何学习的?人是如何理解的?人的思考方式是怎么样的?

思考的过程中,我发现人在思考的时候好像总有一团知识混沌体围绕着自己思考的主题,也就是相关的知识,当时自己就提出了一种叫“关联图谱”的概念,这个图谱可以从一个知识联想到另外一个知识,知识之间可以包含有明确关系的关联关系,也可以包含有潜移默化的关联关系。

在学习与实现的过程中,发现谷歌在 2012 年发布了和自己所想的类似概念叫“知识图谱”,后面也就将有明确关系的关联部分从“关联图谱”中单独拆分出来,以“知识图谱”这个概念为准了。

OwnThink 的知识图谱项目是我一个人做的,并且在 2017 年开始对外开放。这个项目主要是用个人业余时间来维护,服务器资源是自己掏钱买的云服务器,当然还有网友的捐赠支持,这里也非常感谢那些帮助过、关心过 OwnThink 的人工智能爱好者。

AI科技大本营:简单介绍下这个知识图谱项目开发的过程?

Yener:知识图谱的开发过程是一个标准的百科知识图谱构建流程,数据抽取来源于结构化数据、半结构化数据、非结构化数据,对各大百科进行抽取后,再对知识进行融合、实时更新等一系列操作。非结构化抽取采用的是联合信息抽取模型,数据标注格式也是采用的(实体、属性、值)或者(实体、关系、实体)的混合标注模式,标注完就是常规训练、调参了。

AI科技大本营:为什么要开源?

Yener:我是一名人工智能爱好者,也非常期待能够独立思考的人工智能机器人到来的那一天,为了尽自己的一份绵薄之力,将这个知识图谱项目开源,让大家去了解知识图谱,去免费使用知识图谱。

AI科技大本营:对开发者以及构建行业知识图谱的企业有什么益处?

Yener:知识图谱构建重要的是一个思想,不管百科类的知识图谱,还是金融知识图谱,或者是医疗知识图谱,其实构建思想都是一样的。大家可以直接使用这个知识图谱,当然如果是想要构建行业知识图谱,这个项目也可以给大家提供一个参考,能够帮助开发者快速去了解知识图谱、去构建自己所需要的行业知识图谱。

AI科技大本营:后续的更新计划是怎样的?

Yener:目前这个知识图谱已经做到实时更新,只需要对服务器进行续费即可,后续的发展计划是融合行业的知识图谱知识,比如说金融知识图谱、医疗知识图谱等等,这些知识其实对行业是非常有用的,以后大家可以直接使用,当然数据也将会继续开源下载。

AI科技大本营:OwnThink 还开放了对话机器人、知识图谱、语义理解、自然语言处理工具,还会推出其他开源项目么?OwnThink 平台最终会朝什么方向发展?

Yener:我们后续的开源项目是语音识别和语音合成,这是人工智能机器人链路上不可获取的一项技能,人是有感知和认知的,机器人也一样,语音识别和语音合成是感知层,对话机器人是属于认知层,有了感知和认知才能算一个比较完整的人工智能机器人;语音识别和语音合成开源项目应该会在 2020 年开始,后续大家也可以在开源平台上 clone 然后直接使用这些项目。

OwnThink 最终的方向是类似于 Wikipedia 这样的组织,我们将开放接口调用,也将开源数据下载,当然也会开源代码工具等。

AI科技大本营:做开源这件事的源动力是什么?

Yener:最大的动力其实就是我的人工智能梦。兴趣是最好的老师,目前我所做的也都是兴趣驱动。希望有更多的爱好者加入我们,为开源项目做贡献。