在2023年,人工智能(AI)领域的发展犹如疾风骤雨,令人目不暇接。这一年中,AI领域经历了众多的变革,仿佛将过去十几年的积累在一夜之间彻底释放。今天,我们将通过三条主线来盘点今年AI领域最重要的里程碑,并以此为契机,探索明年AI可能的发展方向。请各位小伙伴们务必点赞关注,以免错过精彩内容。
首先,我们来到了第一条线——语言模型线。简单来说,这是人工智能在聊天方面的应用。去年年底,一款名为ChatGPT的人工智能横空出世,上线短短五天就吸引了100万用户。仅仅两个月后,用户数量便突破了一个亿,创下了史上最快增长纪录。ChatGPT的成功得益于两个技术突破:一是通过人工调教,使其回答人类问题更加自然、不机械;二是发现了大模型的涌现现象。所谓涌现,是指当模型规模较小时并未出现某种能力,但当模型规模达到一定程度后,这种能力突然出现。例如上下文学习能力、思维链能力等。这种现象让大模型的智能水平得到了质的飞跃,仿佛从猴子进化成了人。有时候我也在想,人类意识的起源会不会也是一次进化的涌现呢?
二月Meta发布开源大模型Llama,三月智普发布了开源中文大模型ChatGLM!三月OpenAI发布了GPT4,至今最强模型诞生。三月份百度发布了文心一言,但当时仅能通过内测申请来提供服务。四月阿里发布通义千问模型,五月科大讯飞发布讯飞星火模型。此后,大模型百花齐放,但能力至今都还没有超越GPT4(此处接受反驳)。
九月GPT4V发布,让GPT有了眼睛,可以看图了。而变声模型vits和文本转语音TTS的发展,也让GPT有了耳朵和嘴巴。年底谷歌发布了多模态大模型Gemini,可以理解文字、图片、代码和音视频。大模型从语言开始卷多模态!但还没过年就被爆出Gemini训练数据疑似用了文心一言生成的数据。世界真的像个草台班子啊。
另一条围绕ChatGPT的支线是语言模型的应用生态系统。这条生态线不仅丰富多彩,而且充满了创新和变革。
在今年三月,OpenAI联合向量数据库厂商推出了插件体系,为ChatGPT增加了联网功能和代码解释器。这一创新引发了广泛的关注,使得向量数据库厂商成为了市场的宠儿。同时,也催生出了像langchain这样的语言模型框架,使得语言模型不再仅仅是一个简单的聊天工具。在这个生态系统中,语言模型被赋予了更多的功能。它们可以检索知识库、使用工具,甚至相互协作完成某一任务。这种智能体Agent的概念开始盛行,人们看到了语言模型在未来的巨大潜力。
故事总有但是,但是,在今年11月,OpenAI在开发者大会上宣布了GPT开始内建向量数据库,并内置了向量检索功能。同时,他们还发布了Assistants API,封装了Agent的各项能力。这一系列的举措无疑是对插件服务商的一次重击。好不容易被培养起来的用户,一把就被OpenAI给薅没了。在这个过程中,值得注意的是山姆奥特曼的命运转折。他先是离开了OpenAI,但又很快重新回归。这也反映了当下语言类大模型领域中各个公司和个人的命运起伏。
说完了语言模型线,今年AI发展的第二条主线是绘画线,也就是AI画图。
从AI绘画工具看,依旧是三分天下。Midjourney依旧是简单易用、高画质的代名词,今年从V4升级到了V5,现在马上要出V6,生成的图片也更加稳定自然,对于光影的把控简直令人发指。摄影师看了都直摇头,年初比较火的马斯克在苏联和钢铁侠炸油条系列就是Midjourney的作品。
然后是StableDiffusion以其免费、开源、可定制性的多样玩法,牢牢占据了三分天下有其一的地位。不仅各种插件层出不穷,光是各种Checkpoint和Lora模型都撑起了一个千万市值的C站,赛博朋克风格,二次元萌妹、机甲风、国风、甚至建筑图、Logo制作、头像制作等等等等,不管你喜欢什么画风,只需一个Lora,就能源源不断的生成图片。今年8月份妙鸭相机火出圈,其底层就是一个证件照风格的Lora,可以省下一大笔海马体照相馆的钱。而controlnet则是稳居SD插件榜首。
ControlNet是什么?通俗点来说,如果要画一幅画,一方面是构图,一方面是风格。ControlNet就是用来控制构图的,Checkpoint和LoRA模型就是用来控制风格的。
ControlNet可以控轮廓,控表情、控姿势、控景深,从各种角度控制画面的内容,所以大家要是想从事AI绘画那就必学ControlNet。
而底模方面,SD也从1.5升级到了SDXL,画质得到了巨大提升。
这AI绘画的最后一块版图,就是dalle了,dalle的定位有点尴尬,论画质卷不过midjourney,论可控性卷不过SD. 今年上半年一度已经淡出人们视野了。但随着dalle3的发布,画质又重回第一梯队,而下半年openai更是直接将dalle3的绘画能力集成到了ChatGPT当中,dalle重生了。目前dalle3的定位也是简单易用,而且还有成熟的API体系和语言模型的支持。
AI绘画的三国江湖明年将如何演变,我们拭目以待。但无论哪种工具,目前还都有一个致命的缺陷亟待解决,那就是生成的形象在前后画面中的不一致问题。现在很多商用的AIGC产品都卡在这一关,一旦突破,必将掀起新一轮的应用浪潮。想创业的明年可以重点关注在这条线。现在网上也有很多AI绘画的培训课程,入门版都不贵,大家可以先花小钱看看,确定了自己的方向和爱好之后,再深入研究。最后给想入门AI绘画的新人几个关键词:秋叶大佬、Nenly同学、WebUI、ComfyUI、liblib.ai。
今年AI发展的第三条主线是视频线。在这个领域,AI技术不断创新,为我们带来了诸多惊喜。
年初的so-vits项目成为了关注的焦点,它能够通过几个小时的音频,完美模拟出人的声音特点,实现了让机器模仿音色的目标。这项技术的实际使用在B站爆火的AI孙燕姿上得到了体现。通过对孙燕姿的专辑进行分离和声音提取,经过训练后,AI孙燕姿竟然能够唱周杰伦的歌,而且听起来非常动人。
除了so-vits项目,还有一项令人惊叹的技术是sad talker。它只需要给AI一张图片,经过训练后就能让图片开口说话,甚至还能眨眼。这种技术的出现让人感觉图片中的人物仿佛真的活了一样,今年的小和尚说话就是使用了sad talker技术。
Wav2Lip技术也值得一提。作为Deepfake领域的一把好手,它能够修改视频的唇形,实现生成的视频人物口型与输入语音同步。这种技术让视频中的人物口型与语音更加协调,增加了视频的真实感。
最近很火的叫Heygen的产品将多项技术整合在一起,让人物用自己的声音说出任何你想让他说的话。这款产品的原理是先分离视频中的音频,然后使用so-vits技术学习说话人的音色,接着将任何说话脚本或原文翻译成音频并赋予说话人的口音。最后,通过对口型技术对视频进行修改整合,实现让郭德纲说英语相声的效果。整个过程看起来非常和谐且流畅,让人感觉这段话就是视频中人物说的。
此外,还有一些其他值得关注的技术。例如,Meta开源的Whisper项目能够识别世界上大部分主要语言的视频语音;Roop和FaceFusion两款开源换脸软件不仅能直接给图片和视频换脸,还能将多张图片融合成一张脸;AnimateDiff能够将两张美女跳舞的不同动作图片转换成一段动画,也就是说给出视频关键帧,就可以生成一段视频。
年底时,SD团队发布了SVD模型,这个模型只需要几句描述文字就能让静态画面动起来。这一技术的出现给创意设计带来了更多可能性。
虽然这些技术给人们带来了诸多便利和创新体验,但我对此仍有些担忧。对于我们这些了解这些技术的人来说,真假难辨,更不用说普通人了。AI给了我们一把利剑,但我们也要思考如何防止坏人使用它。
回顾2023年AI领域的发展,我们见证了技术的飞速进步和广泛应用。面对未来,我们期待AI能更好地服务于人类,同时也希望各方共同努力,确保技术的发展与道德伦理相协调,为人类创造更加美好的未来。