文章列表-AI魔法学院

文章列表

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

其三是合成得到的监督数据，利用GPT3.5为来自Wiki跟MC4的长文本生成对应的问题，用于缓解模型在长文档检索任务的不足，同时引入额外的多语言数据。

BGE M3-Embedding 多语音检索

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

Sora生成的视频与此前其它平台生成的视频到底有哪些区别？

sora 视频生成

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

而这一次的项目，就是被N多人期待了很久的，腾讯混元视频生成模型。

sora 视频生成

测评了8个国产AI大模型，差点崩溃……

从自然语言处理到语音识别，从情感分析到知识问答，大模型的应用已经渗透到我们生活的方方面面。

大模型测评

各个语种互相翻译：Meta推出NLLB-200 AI模型，可实现200种语言互译

要知道，此前的众多语言模型，要么不支持这么多种语言，要么不能直接完成小众语言之间的两两翻译。

翻译大模型

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

Stable Diffusion

详解Stable Diffusion提示词prompt语法

根据自己描述的中文直接通过翻译软件进行翻译，然后把词条放在 prompt 中就行翻译网站：https://fanyi.baidu.com/ 3.抄作业参考一些模型网站的例图与提示词记录网站的成品

SD prompt 文生图提示词

用so-vits-svc-4.1进行音色转换的极简教程

但是无论转换哪种声音，都需要至少采集30分钟-1小时的语音干声，这对于普通讲话很好采集，只需要到一个安静的场所，比如录音棚，录制一段语音即可。

声音 sovits

6个最佳开源TTS引擎

02 mozilla TTS https://github.com/mozilla/TTS TTS是一个用于文本到语音生成的高级库。

TTS引擎开源模型

开源大语言模型完整列表

这些模型通常拥有数十亿到数万亿个参数，能够处理各种自然语言处理任务，如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。

开源模型大语言模型

用so-vits-svc-4.1进行音色转换的极简教程！

但是无论转换哪种声音，都需要至少采集30分钟-1小时的语音干声，这对于普通讲话很好采集，只需要到一个安静的场所，比如录音棚，录制一段语音即可。

so-vits-svc 音色转换教程

ComfyUI上使用SDXL1.0官方工作流实操使用零基础讲解节点式生成的Ai绘画工具comfyui，节点模块讲解

因为comfyui更符合stable diffusion的工作原理，生成图片时的速度相较于webui有较大的提升，根据我的测试生成大图片的时候不会爆显存。

文生图

通往 AGI 之路：走进大语言模型

2022年 11 月 30 日发布的语言模型。

AGI ChatGPT 大语言模型

ChatGLM3-6B：新一代开源双语对话语言模型，流畅对话与低部署门槛再升级

在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。

ChatGLM3 语音模型开源模型

语义检索系统[全]：基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索

，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT具备上知天文下知地理，还能根据聊天的上下文进行互动的能力，做到与真正人类几乎无异的聊天场景进行交流

开源模型

<...9 10 11 121314 15 16 17 18 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1