马斯克“抄袭”ChatGPT?
近日,马斯克旗下 AI 初创公司 xAI 推出的新一代聊天机器人 Grok,因为在拒绝用户请求时,直接引用了 ChatGPT 背后的开发商 OpenAI 的政策条款,引发强烈争议。
不少“吃瓜群众”认为Grok“抄袭”了OpenAI 的劳动成果,并且质疑 xAI 是否真的拥有自己的核心技术?
虽然xAI工程师解释称由于训练数据中包含ChatGPT输出,导致了这种罕见的“幻觉”。但业内专家并不完全认可这个说法,指出Gork更有可能是使用了ChatGPT生成的数据,并进行了目标导向的微调。
01“抄袭”来源与争议焦点
争议的导火索在于,Grok 在回复某用户时表示“我恐怕无法完成该请求,因为这违反了 OpenAI 的使用政策”。 这与 ChatGPT 在类似情况下的免责声明,不说一模一样,但至少也有九成相似。OpenAI这个与CEO纠葛极深的竞品公司大名,竟明晃晃得出现在Grok上,很难不让人浮想联翩。 并且这不是Grok完全复制ChatGPT回复的唯一例子,在另一个用户贴出的截图中,Gork甚至在回复中附上了OpenAI的官方邮箱。 一时间,抄袭说法的似乎证据确凿。 事后,xAI 工程师 Igor Babuschkin 解释称,Grok 在训练过程中使用了大量网络数据,这其中可能包含了 ChatGPT 生成的文本输出,从而不小心混入了一些“幻觉”。他表示这种情况非常罕见,已意识到问题,会避免 Grok 未来版本再现,并声明 Grok 开发过程中没有使用任何 OpenAI 代码。 然而看戏的ChatGPT再将事件添了一把火。 在工程师发声后,ChatGPT在社交平台上尖锐发文,阴阳怪气道:“我们有很多共同之处”,此举无疑加剧了大众对 Grok 是否真的抄袭 ChatGPT 的争论。 向来爱凑热闹的马老板,也亲自“奔赴战场”回怼: “好吧,你小子,既然你从X平台上收集所有数据来训练,你就应该知道。”
02 Grok真的“抄袭”了吗?
从技术上分析,Babuschkin 的说法并非毫无根据。 目前,几乎所有主流大语言模型都是通过“预训练-微调”的模式开发的。在预训练阶段,模型会通过读取、理解和生成大规模文本数据来建立语言理解能力。考虑到 Grok 使用了包括社交媒体在内的海量互联网数据进行预训练,其中不可避免地会包含 ChatGPT 等其他模型生成的文本输出。 这确实会导致 Grok 模型“学习”了其他模型的语言特征甚至是 “政策”。 在后续的微调阶段,研发团队会使用特定领域或目标的文本数据,对模型的部分参数进行调整,使其生成输出更符合预期。 所以Grok 混入了 ChatGPT 的输出内容作为预训练数据,产生上述回复的可能性是存在的。 这也解释了为何 xAI 工程师会称其为“罕见问题”。 然而,业内有不少专家对 xAI 的这个说法保留意见。 专家指出,大语言模型几乎不会原样复制其训练数据中的文本,更不太可能逐字生成类似引用政策条款的固定语式。Grok 如果只是在网上偶然使用 ChatGPT 数据,那么产生上述回复的可能性微乎其微。相反,如果使用了 ChatGPT生成的合成文本数据对 Grok 进行微调,使其针对某些问题或请求都给出类似的“政策拒绝”回复,那么出现这种“幻觉”的可能性就大多了。 据业内公开的信息显示,这种使用其他模型输出数据进行微调的做法已经比较普遍,特别是在一些开源项目中。 据报道,今年 3 月斯坦福大学的一个研究小组就曾利用 OpenAI 的 GPT-3 模型生成的数据集,来增强自己模型的指令跟踪能力,引起了不小的轰动。HuggingFace等开源网站上也可以找到许多基于 ChatGPT构建的开源数据集。 所以xAI完全有可能也采用了类似做法,使用 ChatGPT 生成数据,并针对特定情况微调。 这种借力打力的做法在追求业界领先 AI 的过程中已屡见不鲜,模型之间相互“借鉴”也日益普遍。擅长此道的 xAI 工程师想必也不会例外。
03 创新与借鉴之间
无独有偶,就在 Grok 被指“抄袭” ChatGPT 不久,谷歌的AI聊天机器人 Bard 也被爆使用了 ChatGPT 生成的输出内容。 AI大鳄们正争先恐后推出 ChatGPT“克星”,在激烈的时间追逐战中,互相“借鉴”也不足为奇。 但创新与借鉴之间的界限何在? 事实上,站在人工智能发展的历史长河中,我们会发现借鉴、模仿、迭代一直是推动进步的重要动力。 早期神经网络取得成功后,各类模型效仿其结构,BERT、GPT 的预训练思路被广泛借鉴,甚至连深度学习也是对大脑神经网络的抽象模仿。 所以“借鉴”本身不应被视为完全负面的东西,它体现了人工智能领域知识和技术的共享、积累和融合。然而同时我们也要认识到,单纯依赖借鉴很难取得根本性突破,更需要原创性的思考和探索。 目前为止,我们尚未在ChatGPT 的竞品上看到太多超越它的本质创新。 这才是值得我们关注和讨论的问题。
图片新闻
最新活动更多
-
11月22日立即报名>> 【线上&线下同步会议】领英 跃迁向新 年度管理者峰会
-
11月30日立即试用>> 【有奖试用】爱德克IDEC-九大王牌安全产品
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
限时免费下载立即下载 >>> 2024“机器人+”行业应用创新发展蓝皮书
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论