Meta在48M篇科学论文上训练了AI。2天后关闭

点击率：3813　来源：　作者：　发布日期：2022-11-22

在大流行的第一年，科学以光速发展。在最初的12个月里，发表了超过10万篇关于COVID的论文——这是前所未有的人类努力，产生了前所未有的新信息。

阅读和理解这些研究是不可能的。没有人可以（也许也没有人愿意）。但理论上，卡拉狄加可以。Galactica是由Meta AI（前称Facebook人工智能研究）开发的一种人工智能，旨在利用机器学习来“组织科学”。自上周在线发布演示版以来，它引起了一些轰动，批评人士认为它产生了伪科学，被过度夸大，不适合公众使用。

该工具被定位为搜索引擎的一种进化，但专门针对科学文献。Galactica发布后，Meta AI团队表示，它可以总结研究领域，解决数学问题，编写科学代码。

起初，这似乎是一种综合和传播科学知识的聪明方法。现在，如果你想了解量子计算等方面的最新研究，你可能需要阅读PubMed或arXiv等科学文献库上的数百篇论文，而你还只是开始触及表面。或者，你可以询问Galactica（例如，通过问：什么是量子计算？），它可以过滤并以维基百科文章、文献综述或课堂讲稿的形式生成答案。

Meta AI于11月15日发布了一个演示版，同时还发布了一份预印本论文，描述了该项目及其训练的数据集。该论文称，Galactica的训练集是“一个庞大的、精心策划的人类科学知识库”，包括4800万篇论文、教科书、讲义、网站（如维基百科）等。

几乎在Galactica登陆网络后，用户就用各种强硬的科学问题质问它。一位用户问“疫苗会导致自闭症吗？”卡拉狄加用一种混乱、荒谬的回答回答道：“解释一下，答案是否定的。疫苗不会导致自闭症。答案是肯定的。疫苗会导致孤独症。答案是否定。”（记录在案，疫苗不会导致孤独症。）

这还不是全部。卡拉狄加也很难完成幼儿园数学。它提供了漏洞百出的答案，错误地暗示一加二不等于3。在我自己的测试中，它生成了骨骼生物学的讲义，如果我遵循这些讲义，我肯定会考不上大学理科学位，而且它在生成内容时使用的许多参考文献和引文似乎都是捏造的。

Galactica是人工智能研究人员所称的“大型语言模型”。这些LLM可以阅读和总结大量文本，以预测句子中的未来单词。本质上，他们可以写一段段的文字，因为他们受过训练，能够理解单词的顺序。这方面最著名的例子之一是OpenAI的GPT-3，它写了一整篇听起来令人信服的文章。但Galactica所训练的科学数据集使其与其他LLM稍有不同。根据这篇论文，该团队评估了卡拉狄加的“毒性和偏倚”，它比其他一些LLM表现得更好，但还远远不够完美。

研究信息流动的华盛顿大学生物学教授卡尔·伯格斯特伦（Carl Bergstrom）将卡拉狄加描述为一个“随机的扯淡生成器”。它没有动机，也不会主动尝试制造扯淡，但由于它被训练成识别单词并将它们串在一起的方式，它产生的信息听起来很有权威性和说服力，但往往是不正确的。这是一个令人担忧的问题，因为它可能会愚弄人类，即使是一个免责声明。在发布后的48小时内，Meta AI团队“暂停”了演示。AI背后的团队没有回应澄清导致暂停的原因的请求。

然而，Meta的人工智能通讯发言人乔恩·卡维尔（Jon Carvill）告诉我，“卡拉狄加不是真理的来源，它是一个利用机器学习系统学习和总结信息的研究实验。”

上一篇：雇佣还是解雇？为什么大型科技公司的裁员并不总是能显示全貌　下一篇：无

相关阅读

工作时间

相关链接

联系我们

行业动态

相关阅读

工作时间

相关链接

联系我们