文章列表-AI魔法学院

文章列表

手把手教你用 SD 生成文字形状的光线，用来做营销宣传图非常有效

昨天类似这种文字光效或者将文字合成在衣服上的图好像又火了，很多朋友在问怎么做，其实就是ControlNet的简单应用，比如模拟光线照射文字的，之前用来调整自然光线的角度和范围这次不过是将原来模拟光照的图变成了文字了

图像文字 ControlNet Stable Diffusion

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

今天要学习的就是我上一篇笔记中所提到的Turbo，在官方的演示中这款软件实现了一打字就会出画面，画面随着提示词的更改实时变化。

SDXL-Turbo 文生图

来个优秀的开源人脸识别项目！

通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段的密切结合，将人体固有的生理特征或行为特征收集起来，进行取样、数字化处理和分析。

人脸识别开源项目

长窗口大战要终结了？谷歌魔改Transformer，推出了“无限注意力”

谷歌的大模型Gemini 1.5 首先玩了一个百万token的，中国的月之暗面一个月后推出Kimi智能助手，支持200万字超长无损上下文，在中国的大模型应用中异军突起。

大模型上下文

你的下一个浏览器，可以是豆包电脑版！

万万没想到，现在看B站视频的打开方式，竟然可以这么AI了。

豆包浏览器

一文带你看懂OpenAI-Sora生成视频的原理

这种处理时空信息的方式打开了创造性表达和技术应用的新门路。

视频生成 sora

美的数字化转型10年，方洪波的反思。作为领导者的高瞻远瞩与宽广胸襟！

也就是说任何的零售商要跟美的做生意，他不用认识美的人，也不用打交道，也不用对账，你就在美营销平台上完成所有的这个交易。

工作

宁德核电推出全球参数量最大的核工业大模型｜InfoQ 独家

InfoQ 数字化经纬获悉，中国广核集团福建宁德核电有限公司（以下简称“宁德核电”）日前发布了自主训练的大模型「锦书」，这是专为核工业领域打造的大语言模型，其参数规模达到 720 亿。

宁德核电大模型

Selenium+ddddocr | 再也不担心图片验证码

）库，该库可以识别图片中的文字，并返回文字内容。

Selenium ddddocr库

[Midjourney]人物镜头拍摄视角大全

1.MJ关键字 1 looking into camera

视图视角构图

让AI记住你说的话、让AI给你生成几十万字的小说！StreamingLLM 让无限长token成为可能

比如写一个几十万字的小说！

StreamingLLM 写作

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior” VividTalk由南京大学、阿里巴巴、字节跳动和南开大学联合发表

VividTalk 视频

RVC和SVC声音模型难找？推荐这个网站

AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频。这包括数据预处理、模型构建、训练、评估和优化。为了达到逼真、自然的声音效果，需要大量高质量音频数据和计算资源，并且需要精细调整和优化模型。

声音克隆数字人

AI声音克隆 | 最全最简教程（权威版）

它是一种将文本内容转换为语音的技术，通过TTS技术，计算机可以将文字信息转换成人类可听懂的语音输出，实现语音合成的功能目前市场上的AI声音我们最多用的还是普通的

声音克隆教程

一个充满多智能体的数字社会正在浮现，商业的底层逻辑已进入重构倒计时

未来已来，一个遍布智能体的数字社会正在浮现。

大模型

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1