伴随着生成式AI技术的到来,人类已经进入了一个“人机物”三元融合的万物智能互联时代。人类历史上每一次科技变革都会带来道德观的拓展与深化,而每一次拓展道德观照范围都是在重新思考人何以为人,深化对人自身的认识。不论是当年的动物伦理、生态伦理还是今天畅想负责任的人工智能体的可能,我们都并非简单地把人应当承担的道德责任转嫁给他者——不论是动物、植物还是未来的硅基生命,而是在面临愈发复杂多元的世界时进一步厘清人类自己的道德边界。
今年2月中旬,美国OpenAI公司发布了文生视频大模型Sora。该模型可以根据用户的文本提示运用多角度镜头切换,连贯地生成长达60秒、包含多个角色和特定运动的复杂场景的视频,模拟物体间的交互行为,甚至呈现一些符合物理定律的现象,其惊艳表现瞬间引起强烈关注。4月中旬,美国Adobe公司在其发布的Premier Pro概念演示里,再次展现了Sora等一系列生成式AI工具在视频编辑上令人咋舌的性能。5月中旬,OpenAI公司又发布了新的旗舰模型GPT-4o,可以实时对音频、视觉和文本进行推理,进行与真人交流几近无异的人机交互。
上述一系列AI产品的发布及其展现出来的卓越性能让一些人惊叹:真实与虚幻之间已经没有了界限,这会给人类带来灾难!还有人欢呼:这是通用人工智能的曙光,其潜力不可限量!事实上,不论人们的反应是喜是忧,指向的都是同一个问题:日益“智能”的AI技术,对人类社会意味着什么?人类的未来将走向何方?
当下:生成式AI是人机交互的初级产品
当前的生成式AI——不论是大语言模型ChatGPT系列还是Sora,都是使用机器学习和深度学习算法,依靠算力支持,通过对大量数据的学习和模式识别来生成新的内容。不同的是,Sora把转换器模型(transformer)同扩散模型(diffusion)结合在一起,不仅提升了其在理解和生成语言、图像序列方面的能力,还提升了其创造力和适应性。由此,Sora构成了一个视频版的ChatGPT,能够理解和处理复杂的数据模式,为用户提供精准、多样化的服务。
不过,从本质上看,不论是ChatGPT系列还是Sora,作为生成式人工智能工具,它们都是人、机、环境交互的产物,需要仰赖人提供数据原料进行“喂养”,需要人进行打标、校验、反馈,才能在一定的使用环境下发挥其效能。在早前OpenAI联动视觉艺术家、电影制作人和设计师等专业创意人士用Sora制作出的七部公开视频中,有一部由多媒体制作公司Shy kids打造的短片Air Head因情节完整、叙事性强备受关注。近日,该片的制作团队基于其亲身体验,揭示了用Sora生成的视频实际上是大量人工编辑加工与Sora合作的产物。
目前,生成式AI所依赖的深度学习算法本质上是概率推测,无法真正理解底层现实和因果关系。比如,现实中,人类往往会借助多义、转义和模糊等方法,用有限的词汇表达无限丰富的世界,但是,转换器等模型是忽略词汇在语义空间中的这种多重或模糊特性的。所以,ChatGPT系列目前还无法解决“一本正经的胡说八道”这一“知识幻觉”问题。Sora也尚不具备真正模拟世界的能力。尽管Sora较此前的视频生成软件表现着实令人惊艳,但其生成的视频中仍然有许多违背物理世界的内容出现。比如,篮球会穿过篮筐的边框而过,人咬了一口饼干但饼干上没有咬痕等。此外,它还可能混淆空间细节,难以精确描述随着时间推移发生的事件等。这意味着Sora离OpenAI所宣称的“世界模拟器”尚有较大差距。总之,当前的ChatGPT系列和Sora等生成式AI都是人机交互的初级产品。
近期:生成式AI成为人机共舞的助推器
就理论上的性能特点来看,生成式AI与人类具备互补性。近年各类层出不穷的生成式AI应用表明,智能化机器在处理和运算数据方面往往远超人类。比如,GPT-4在做美国律师资格考试的试题时,超过了90%的人类考生。但是,现实世界是复杂的和不确定的。在充斥着复杂性和不确定性的现实世界做出恰当决策,不仅需要机器所擅长遵守的逻辑和规则,更需要个人经验、直觉、情感和价值观等主观因素。而这些人类身上的主观因素往往难以量化和规则化,机器也难以模拟和理解。所以,我们无需过于担忧智能化机器会完全取代人类,相反,我们需要思考如何建立新型的关系,让人类和机器协同共生、优势互补,实现“人机共舞”。就目前的实际性能来看,生成式AI仍然是一种生产自动化工具,不论是数据的输入还是输出,都需要在人的主导下完成。所以,在可以预见的将来,我们可以让生成式AI成为“人机共舞”的助推器。
众所周知,在教育、工业、娱乐、医疗、金融、自动驾驶、智慧城市等多个领域,生成式人工智能已经初步得到应用,正推动千行百业的智能化发展。尤其是生成式人工智能在推动科研范式的转换上已展现出变革性潜力。不过,以Sora和ChatGPT为代表的生成式人工智能技术在理解和模拟真实世界上还存在局限,所以,相对而言,这些技术可能更容易在短视频、广告、互动娱乐、影视媒体制作等较为宽容的传媒艺术领域首先产生爆发式应用。比如,以Sora为代表的生成式AI目前并不涉及纯粹的创意层面,对创作者的影响还不是特别大,反倒能够将丰富的创作素材进行关联结合,为创作者提供全新、独特的灵感来源,为丰富人类的想象力创造广袤的空间。而且,Sora通过自然语言生成视频极大地降低了视频创作的门槛。每一个有创意的人都无须受到现实空间与实景建造成本的限制,也无须掌握专业级别的绘画、剪辑、摄影等技能,就能让脑海中的瑰丽世界走进现实。由此,更多的创作者将拥有更多实现自己创意的机会。当然,这一过程会伴随诸如虚拟人物滥用、隐私泄露、图像视频造假等潜在伦理问题和知识产权界定等社会问题,也可能因为技术的进步导致一些工作岗位的消失。这些都需要引起高度重视和积极应对。历史上人类的每一次技术革命的到来都伴随着阵痛。深度学习算法之父杰弗瑞·辛顿认为:“AI对世界的改变将超过人类历史上任何事物,它在尺度上堪与工业革命相比,抑或是车轮、电能的发明。”如果辛顿所言不谬,那么,我们并不能因为可能的阵痛而简单否定生成式AI助推“人机共舞”的前景。(社会科学报社融媒体“思想工坊”出品 全文见社会科学报及官方网站)