网站首页 > 参考文献> 文章内容

期末!大四留学生发“论文机器人”替你读文献给方向调格式已被ACL2019收录

※发布时间:2019-6-11 6:20:19   ※发布作者:A   ※出自何处: 

  面对浩如烟海,怎么读也读不完的文献,提不出的问题,想不出的创新点,还有繁琐的论文格式,你可能也在幻想,“如果这时候能有一个论文机器人,帮我写论文就好了。”

  本文的作者分别来自伦斯勒理工学院、DiDi 实验室、伊利诺伊大学香槟分校、北卡罗来纳大学山分校和大学。

  其中,论文一作Qingyun Wang (昀)是伦斯勒理工学院的大四本科生,正准备攻读计算机科学的博士学位。

  他们开发的AI学术助手叫做PaperRobot,可以帮助构建论文的背景知识图,写摘要、关键内容和标题,梳理结论并给出进一步的研究方向的。

  论文机器人的诞生有其现实必要性,PaperRobot目前主要应用于生物医学领域,这个领域已有的论文数已超过二千六百万份,近年来更是持续呈现井喷式的增长,每年发表的论文超过一百万份。

  在2012 年,美国科学家提出,人类平均每年只能阅读 264 篇论文,这个数字与他们在 2005 年进行的同样调查中报告的数据是一致的。而论文机器人能帮助学者快速从海量的已有研究中,筛选出写论文需要的材料,让你真正站在巨人的肩膀之上,节约大量的时间。

  研究者使用图灵测试来检验了PaperRobot生成的论文部分(摘要,结论和进一步研究)。

  结果表明,喜欢PaperRobot生成摘要的读者要比喜欢人类写的摘要的读者多30%以上,结论部分投给PaperRobot的读者要多24%,研究部分12%。

  PaperRobot主要是借助自然语言处理(NLP)和自然语言理解(NLU)的最新进展而设计和开发的。主要工作流程是从已有的论文中提取知识,构建知识图谱,然后提出新的想法并协助写出论文。

  PaperRobot 可以快速阅读已有论文,对指定领域的大量已发表的论文进行深入的理解,构建背景知识图 (KG)。

  研究者应用的是 Wei 等人在2013年提出的实体和关系提取系统,他们输入生物医学领域的已发表论文,PaperRobot从中提取出3类知识概念:疾病,化学和基因。然后进一步将所有知识概念类型链接到 CTD (比较遗传毒理学数据库),提取出133个子类型的关系,比如标记/机制、治疗和提高表达。

  之后PaperRobot就构建出如下的背景知识图。其中每个节点代表不同的知识概念,边表示这些实体之间的关系。

  新的科学发现可以看作是在已有的知识图中创建新的节点或链接。创建新节点意味着在实验室实打实地通过一系列的实验发现新的概念 (如新类型的蛋白质),这对 PaperRobot 来说有一些困难。但是以背景知识图,也就是现有的知识概念作为起点,发现新的链接还是可以实现的。

  已有研究表明,在640万篇生物医学和化学论文中,60% 以上是增量式,也就是创造新链接的工作。所以robot所做的,通过背景知识图(KGs)中的新链接来自动地增加新想法和新假设是有意义的,可以成为科学进步的重要起点。

  在这里论文提出了一种新的实体表示方法,也就是结合了背景知识图和非结构化上下文文本来进行链接预测,从背景知识库中链接已有知识而产生新的想法。

  上图中的虚线就是PaperRobot 预测的新的链接,由于钙和锌在上下文文本信息和图结构上都相似,PaperRobot 预测了与钙可以发生关系的两个新邻居:CD14 和神经纤毛蛋白 2 (neuropilin 2),它们在背景知识图中与锌相关联。

  把新想法清晰地传达给读者是一件非常困难的事情,许多科学家可能想法很好,却表达不出来。PaperRobot 使用一个新颖的 memory-attention 网络架构,基于输入的标题和预测的相关实体,可以自动写出了一篇新论文的摘要,还可以写出结论部分和部分,甚至还可以生成新的标题。

  论文机器人的幻想早已有之,早在2005年,麻省理工学院(MIT)计算机科学与人工智能实验的三个学生Dan Aguayo、Max Krohn和Jeremy Stribling就曾经一起开发过一款自动生成论文的小程序SCIgen。

  SCIgen是一个网页程序,只需输入作者名,就可以自动生成一篇“SCI级别”的计算机论文。摘要、背景介绍、实验结果、图表、讨论以及结论一应俱全。生成的论文格式可能比一些学生写的论文还要规范。

  但是,与PaperRobot不同,SCIgen根本无法通过图灵测试,因为它生成的论文只有格式正确,内容完全是不知所云。

  SCIgen的原理很简单,类似于填词游戏。因为学术论文的格式非常固定,而且基本都是固定的专业词汇和句式。SCIgen只需要从固定的词库中,随机抽取出这类计算机领域内的专业术语,以符合语法的方式生成文本。再加上一些漂亮的图表和详细的参考文献等,形式上就可以非常规范,从而能骗过不少外行。

  比如这篇生成的论文名为《Rooter:处理接入点与冗余的典型合一方法》,看起来用词非常高大上,但是内行人仔细阅读就会发现文章只是语言和术语的堆砌,没有什么实质性的内容。

  但是的是,WMSCI(系统论、控制论与信息论多学科国际会议)会议不但接受了这篇假论文,还邀请作者出席会议作报告。

  MIT三个大学生开发这款软件的目的其实就不是为了帮自己写论文,而是为了揭露WMSCI之类的不认真审查论文的期刊和会议。

  在他们把SCIgen攻陷WMSCI的事情经过发到网上之后,WMSCI颜面扫地,迅速删除了论文,IEEE(美国电气和电子工程师协会)还撤回了对该会议的赞助。SCIgen因此也被戏称为“学术钓鱼软件”。

  之后又有学生发现了这个神器,分别于2008和2009年向在中国武汉举办的两个IEEE国际会议,结果机器虚拟的Schlangemann教授还被当成了知名学者,被邀请作为会议的主持人。

  这之后康奈尔大学数学系博士后Nate Eldredge又根据SCIgen进行了改编,做出了名为Mathgen的计算机论文自动生成器。并在2012年用一个“南部北达科他大学霍普分校”的“Marcie Rathke”教授的假身份,向期刊《理论数学进展》(Advances in Pure Mathematics)投递了一篇论文,这篇论文正是用Mathgen自动生成的。

  虽然论文摘要每句话都看起来很厉害的样子,但实际上就是在一本正经地八道。但是10天之后,这篇论文就被接受了,编辑还像模像样地写了5点修改意见。

  现在SCIgen的访问量依然惊人,每年的浏览量超过60万次,无数假论文源源不断地产出,导致这个页面隔几个月就要崩溃一回。

  2013年,法勒诺布尔大学的研究员Cyril Labbé透露,他在IEEE和Springer出版公司旗下的期刊中,发现了超过120篇SCIgen生成的假论文。

  对于PaperRobot,也有人提我的换夫经历出质疑,如果AI继续发展,写出的论文到了无可挑剔的地步,未來学生可以完全借助AI的帮助,自己不用动脑筋地写论文,教授该怎么打分呢﹖

  从学术钓鱼软件SCIgen到灵感提供者PaperRobot,从假论文到真助手。技术的进步可以帮助科研人员节约时间,也可以被学生用于学术造假。

  翟天临最近又上了热搜,原因是继2月“学术不端事件”爆发后,教育部加强对于学术论文的检查力度。这让毕业季和期末季改论文改到心力憔悴的学生们怒从心起,纷纷冲向了翟天临的微博评论区开始痛苦。

  这也引起了一些网友的,翟天临学术不端时被全网唾弃,可对学术的严格要求放在自己身上却不情愿了,做好学术论文难道不应该是一个学生的本职吗?

  当初每一个年轻人都是都怀抱着以学术为业的初心,受到学术理想的旗帜的进入学术圈。我们在一个问题想不明白的时候会整夜整夜地辗转反侧,在灵感迸发的时候会欣喜若狂,在受到不的待遇,不客观的审查的时候会忿忿不平想要高声呐喊。

  回到柏拉图《理想国》第七卷的开头:那些被锁着的岩洞里的人只能看到光线透在岩石上的影子,直到有个人了,回身看到了太阳。他在目眩中四处摸索,逐渐适应了注视,此后他的任务便是爬回岩洞的囚徒那儿,率领他们回到之中。

  科技不断进步,也许有一天借助AI每个人都可以写出完美的论文,但是只有背后的研究者真正知道它是怎么写出来的。技术的进步可以安排好我们的生活,但只有科学的进步才能让我们透视技术的本质,在影子之外看到太阳,不理会和影子,找到真正的存在。

  开文机器人也只能用作辅助,不可能让他代替写论文。学术圈生态的需要从写作者本身到审查者都端正态度,做好冷板凳。

   文章来源于博贝棋牌850游戏