2023年人工智能行业总结(精简版)
AI魔法学院
2024-01-09
分享海报

2023年,AI领域经历了诸多变革,仿佛释放了过去十几年的积累。我们将通过三条主线盘点今年AI的重要里程碑,并探索明年可能的发展方向。

首先,语言模型线取得了显著突破。ChatGPT的出现创下了用户最快增长纪录,这主要得益于人工调教和大模型的涌现现象。随后,各大公司相继发布了大模型,如LlamaChatGLM、文心一言、通义千问、讯飞星火等。GPT4V多模态模型和Gemini的发布让大模型能够看图看视频作答。此外,围绕大模型的应用生态系统也迅速发展,催生了语言模型框架和智能体Agent的概念。然而,随着OpenAI内建向量数据库并发布Assistants API,插件服务商受到冲击。在这一过程中,山姆奥特曼的命运也发生了转折。这些里程碑事件不仅展示了AI领域的快速发展,也暗示着我们每个个体在AI大潮中的沉浮。

今年AI发展的第二条主线是AI画图,其中MidjourneyStableDiffusionDallE是三大主流工具。Midjourney简单易用、高画质,通过简单的文字描述就可以生成高质量的图片,而StableDiffusion则以其免费、开源、可定制性的多样玩法受到欢迎。Dalle,其定位简单易用,并且有成熟的APIChatGPT语言模型的支持。AI绘画三国的未来发展令人期待,但目前生成的形象在前后画面中的不一致问题亟待解决。

2023AI发展的第三条主线是视频线,这条线创新不断。

年初的vits项目能完美模拟人的声音特点,AI孙燕姿能唱周杰伦的歌。sad talker技术能让图片开口说话,小和尚说话就是用了这项技术。Wav2Lip技术能修改视频的唇形,让口型与语音更协调。Heygen综合了这几大能力,能让人物用任何声音和语言说出任何话,整个过程非常流畅。此外,还有MetaWhisper项目,能够转化声音为文本、RoopFaceFusion的换脸软件、AnimateDiff的动画生成技术等。年底发布的SVD模型只需几句描述文字就能生成高质量动画,给创意设计带来更多可能性。

虽然技术带来了便利和创新体验,但我们也要思考如何防止坏人使用它。未来,我们期待AI更好地服务于人类,并希望各方努力确保技术与道德伦理相协调,创造美好未来。

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip