ayx爱游戏

微软、谷歌和Meta押注合成数据构建AI模型

最佳回覆

   “原神胡桃翻白眼流眼泪” 微软、谷歌和Meta押注合成数据构建AI模型。SAOA121AFOAJEFDN23AK

  聊天机械人每一个巧妙的原神胡桃翻白眼流眼泪应答背后都有海量数据作为支撑——在某些情况下,需要从文章、书籍和网上评论中摘取数万亿个词汇,以教会人工智能系统理解用户的询问。业界的古板看法是,建立下一代人工智能产品将会需要越来越多的信息。

  然而,这个计划保存一个大问题:网络上能够提供的高质量数据是有限的。为了获得这些数据,人工智能公司通常的做法是,要么向出书商支付数百万美元以获得内容许可,要么从网站上下载数据,使自己面临版权纠纷的危害。越来越多的顶流人工智能公司正在探索另一种在业内引发不同的步伐:使用合成数据,从实质上来说就是假数据。

  这种步伐的事情原理是这样的:科技公司可以利用自己的人工智能系统来爆发文字和其他媒体。然后,可以用这些数据训练同一个系统的未来版本,Anthropic的行政总裁达里奥·阿莫代伊(DarioAmodei)称之为潜在的”无限数据爆发引擎”。这样一来,人工智能公司就可以制止引发许多执法、品德和隐私方面的问题。

  在盘算中合成数据的想法并不新鲜——这项技术已经被使用了几十年,涉及到从个人信息的去匿名化到自动驾驶技术路况模拟的各个领域。可是,爆发式人工智能的兴起使人们可以更容易大规模建立质量更高的合成数据,并且也使这种做法有了新的紧迫性。

  Anthropic体现,它使用合成数据来构建为其聊天机械人Claude提供支持的最新模型。Meta和Google已经使用这种数据来开发他们最近的开源模型。GoogleDeepMind最近体现,它依靠这种要领来资助训练一个可以解决奥林匹克竞赛级别几何问题的模型。许多人推测,OpenAI是否正在使用此类数据来训练其文字到影片影像爆发器Sora。(OpenAI透露它正在探索使用合成数据,但不肯证实进一步的细节。)

  在微软,爆发式人工智能研究团队在最近的一个项目中使用了合成数据。他们希望构建一个规模较小、资源密集水平较低的人工智能模型,但仍具有有效的语言和推理能力。为了做到这一点,他们试图模仿孩子透过阅读故事来学习语言的方法。

  该团队并没有向这个人工智能模型提供大宗儿童读物,而是列出了四岁孩子能够理解的3000个词汇。然后,他们要求这个人工智能模型使用词汇表中的一个名词、一个动词和一个形容词来创立一个儿童故事。研究人员在几天的时间内重复了数百万次这个提示,爆发了数百万个短篇故事,最终资助开发出了另一个更强大的语言模型。微软已经将这个新的”小型”语言模型系列Phi-3开源并向民众开放。

  微软爆发式人工智能副总裁布贝克(SébastienBubeck)说:”突然之间,你拥有了远多于已往的控制权。你可以在更精细的层面上决定你希望自己的模型学习哪些工具。”

  布贝克说,利用合成数据,你还可以透过为数据新增更多解释来更好地指导人工智能系统完成学习历程,不然的话,机械在处理历程中可能会感应困惑。

  可是,一些人工智能专家对这种技术保存的危害感应担心。牛津、剑桥和其他几所知名大学的一组研究人员去年宣布了一篇论文,解释了使用ChatGPT爆发的合成数据来构建新的人工智能模型为何会导致他们诉说的”模型瓦解”。

  在他们的实验中,基于ChatGPT的输出内容建立的人工智能模型开始泛起”不可逆转的缺陷”,并且似乎失去了对最初训练内容的影象。举例来说,研究人员用有关英国历史建筑的文字提示一种大型语言人工智能模型。当他们使用合成数据多次重新训练这个模型后,这个模型开始爆发有关长耳大野兔的毫无意义的胡言乱语。

  研究人员还担心,合成数据可能会放大数据集当中的偏见和毒性。合成数据的一些支持者则体现,透过接纳适当的步伐,用这种方法开发的模型可以和基于真实数据构建的模型一样准确甚至更好。

  剑桥大学(UniversityofCambridge)博士舒梅洛夫(ZakharShumaylov)在一封电子邮件中说道:”如果处理恰当,合成数据会很有用。然而,关于如何才华处理恰当,目前还没有明确的谜底;有些偏见关于人类来说可能很难察觉。”舒梅洛夫是上述关于模型瓦解论文的合著者之一。

  另有一个更具哲学性的争论:如果大型语言模型陷入凭据自身内容进行训练的无休止循环中,那么人工智能最终是否会变得不再是模仿人类智慧的机械,而更多的是模仿其他机械语言的机械?

  斯坦福大学(StanfordUniversity)盘算机科学教授PercyLiang体现,为了爆发有用的合成数据,公司仍然需要真正的人类智慧结晶,好比书籍、文章和程序代码。梁在一封电子邮件中说道:”合成数据不是真实的数据,就像你做梦登上了珠穆朗玛峰并不是真正登顶了一样。”

  合成数据和人工智能领域的先驱们一致认为,你不可将人类排除在这个历程之外。我们仍然需要真人来建立和完善人工数据集。

  布贝克说:”合成数据并不是简单地按下一个按钮然后对它说,“嘿,帮我爆发一些数据。”这是一个很是庞大的历程。在大规模建立合成数据的历程中需要投入大宗的人力。”

  责任编辑:杨淳端

【编辑:甘铁生】

宣布于:哈尔滨平房区
声明:该文看法仅代表作者自己,搜狐号系信息宣布平台,搜狐仅提供信息存储空间效劳。
意见反响 相助

Copyright ? 2023 Sohu All Rights Reserved

搜狐公司 版权所有

sitemap网站地图