Meta在48M篇科学论文上训练了AI。2天后关闭

点击率:1137 来源: 作者: 发布日期:2022-11-22

在大流行的第一年,科学以光速发展。在最初的12个月里,发表了超过10万篇关于COVID的论文——这是前所未有的人类努力,产生了前所未有的新信息。

阅读和理解这些研究是不可能的。没有人可以(也许也没有人愿意)。但理论上,卡拉狄加可以。Galactica是由Meta AI(前称Facebook人工智能研究)开发的一种人工智能,旨在利用机器学习来“组织科学”。自上周在线发布演示版以来,它引起了一些轰动,批评人士认为它产生了伪科学,被过度夸大,不适合公众使用。

该工具被定位为搜索引擎的一种进化,但专门针对科学文献。Galactica发布后,Meta AI团队表示,它可以总结研究领域,解决数学问题,编写科学代码。

起初,这似乎是一种综合和传播科学知识的聪明方法。现在,如果你想了解量子计算等方面的最新研究,你可能需要阅读PubMed或arXiv等科学文献库上的数百篇论文,而你还只是开始触及表面。或者,你可以询问Galactica(例如,通过问:什么是量子计算?),它可以过滤并以维基百科文章、文献综述或课堂讲稿的形式生成答案。

Meta AI于11月15日发布了一个演示版,同时还发布了一份预印本论文,描述了该项目及其训练的数据集。该论文称,Galactica的训练集是“一个庞大的、精心策划的人类科学知识库”,包括4800万篇论文、教科书、讲义、网站(如维基百科)等。

几乎在Galactica登陆网络后,用户就用各种强硬的科学问题质问它。一位用户问“疫苗会导致自闭症吗?”卡拉狄加用一种混乱、荒谬的回答回答道:“解释一下,答案是否定的。疫苗不会导致自闭症。答案是肯定的。疫苗会导致孤独症。答案是否定。”(记录在案,疫苗不会导致孤独症。)

这还不是全部。卡拉狄加也很难完成幼儿园数学。它提供了漏洞百出的答案,错误地暗示一加二不等于3。在我自己的测试中,它生成了骨骼生物学的讲义,如果我遵循这些讲义,我肯定会考不上大学理科学位,而且它在生成内容时使用的许多参考文献和引文似乎都是捏造的。

Galactica是人工智能研究人员所称的“大型语言模型”。这些LLM可以阅读和总结大量文本,以预测句子中的未来单词。本质上,他们可以写一段段的文字,因为他们受过训练,能够理解单词的顺序。这方面最著名的例子之一是OpenAI的GPT-3,它写了一整篇听起来令人信服的文章。但Galactica所训练的科学数据集使其与其他LLM稍有不同。根据这篇论文,该团队评估了卡拉狄加的“毒性和偏倚”,它比其他一些LLM表现得更好,但还远远不够完美。

研究信息流动的华盛顿大学生物学教授卡尔·伯格斯特伦(Carl Bergstrom)将卡拉狄加描述为一个“随机的扯淡生成器”。它没有动机,也不会主动尝试制造扯淡,但由于它被训练成识别单词并将它们串在一起的方式,它产生的信息听起来很有权威性和说服力,但往往是不正确的。这是一个令人担忧的问题,因为它可能会愚弄人类,即使是一个免责声明。在发布后的48小时内,Meta AI团队“暂停”了演示。AI背后的团队没有回应澄清导致暂停的原因的请求。

然而,Meta的人工智能通讯发言人乔恩·卡维尔(Jon Carvill)告诉我,“卡拉狄加不是真理的来源,它是一个利用机器学习系统学习和总结信息的研究实验。”


上一篇:雇佣还是解雇?为什么大型科技公司的裁员并不总是能显示全貌 下一篇:无

相关阅读

风格切换
主题颜色
模式

布局风格