8天=4万元奖金+CNCC参会资助|2019科研文本理解比赛

时间:2019-10-07 00:43:28   来源:网络   作者:网络

原标题:8天 = 4万元奖金 + CNCC参会资助 | 2019科研文本理解比赛

2019年10月2日,DiggScience 2019正式开始。本次比赛由AMiner ,Microsoft ,北京智源人工智能研究院和biendata联合组织。本次比赛要求选手提出可以理解和匹配科研文本的方法,预测论文引用和论文描述的关系。比赛预计将于2019年10月12日结束。获奖选手将分享4万元奖金,并获资助参加2019年中国计算机大会(CNCC 2019)上组织的颁奖仪式。

比赛链接:

https://biendata.com/competition/digsci2019/

科学研究已经成为现代社会创新的主要动力。大量科研数据的积累也让我们可以理解和预测科研发展,并能用来指导未来的研究。论文是人类最前沿知识的媒介,因此如果可以理解论文中的数据,可以极大地扩充计算机理解知识的能力和范围。

在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。如果我们可以自动地理解、识别描述对应的被引论文,不仅可以加深对科研脉络的理解,还能在科研知识图谱、科研自动问答系统和自动摘要系统等领域有所进步。

比赛任务

本次比赛将提供一个论文库(约含20万篇论文),同时提供对论文的描述段落,来自论文中对同类研究的介绍。参赛选手需要为描述段落匹配三篇最相关的论文。

例子:

描述

An efficient implementation based on BERT [1] andgraph neural network (GNN) [2] is introduced.

相关论文:

[1] BERT: Pre-training of deep bidirectional transformers for language understanding.

[2] Relational inductive biases, deep learning, and graph networks.

数据描述

本次比赛要求选手根据一句或一段科研描述,匹配3篇最相关的论文。

1. candidate.csv

候选的论文数据集,内含大约20万篇论文,其中有一部分已经在训练集中匹配了句子。选手需要从中选择论文匹配验证集中的句子。

格式如下:

- paper_id

论文ID

- title

论文标题

- abstract

论文摘要

- journal

论文所在期刊

- keywords

论文关键词

2. train_release.csv

训练集,包括句子和匹配的论文ID。格式如下:

- deion_id

描述科研的句子或段落的ID

- paper_id

匹配论文的ID

- deion_text

对科研的描述的文本(有时为句子,有时为一段话)。论文原来的引标用“[**##**]”代替。

如:Rat brain membrane preparation and opioid binding wasperformed as described previously by Loukas et al. [[**##**]]. Briefly, bindingwas performed in Tris-HCl buffer (10 mM, pH 7.4), in a final volume of 1.0 ml.The protein concentration was 300 μg/assay.

在这句中,对应的论文应该与“Rat brain membrane preparation and opioid binding wasperformed as described previously by Loukas et al. ”这句描述相关。

3. validation_release.csv

train.csv格式相同,但是没有paper_id ,需要选手自己匹配。

▽ 点击 | 阅读原文| 报名参赛