之前有AI工具支持写小说,现在的AI工具不仅可以写小说,还能提取小说片段生成视频。
软件介绍
TaleStreamAI,专注于自动化将 AI 生成的小说片段转化为引人入胜的视频内容以进行社交媒体分享的过程。工作流程无缝集成了最新的 AI 技术,以视觉上引人入胜的格式使虚构故事栩栩如生。推荐!
项目使用到的大模型
- DeepSeek-V3
- gemini-2.0-flash
- 硅基智能-FunAudioLLM/CosyVoice2-0.5B
- 秋葉 aaaki forge 整合包
项目截图

项目特征
全自动工作流程: TaleStreamAI 通过利用 AI 算法简化整个过程,消除了创建视频内容所涉及的体力劳动。
AI 小说推文提取:系统自动提取 AI 模型生成的小说推文,作为视频内容的基础。
视频创作: 利用 AI 的力量,TaleStreamAI 将新颖的片段转换为具有视觉吸引力的视频,以便在各种社交媒体平台上分享。
效率和创新:通过将 AI 功能与讲故事相结合,TaleStreamAI 突破了内容创建和分发的界限。
项目流程
流程说明
文件名 | 功能 | 模型/库 |
---|---|---|
main.py | 获取书籍内容 | 无 |
board.py | 生成章节分镜 | gemini-2.0-flash |
prompt.py | 润色分镜提示词 | deepseek-v3 |
image.py | 生成图片 | 秋葉 aaaki forge 版 |
audio.py | 生成音频 | CosyVoice2-0.5B:benjamin |
tts.py | 生成字幕 | 本地运行 whisper |
video.py | 生成视频 | ffmpeg-gpu 加速版 |
video_end.py | 生成完整视频 | ffmpeg-gpu 加速版 |
本地运行
本项目使用的是
uv
来管理依赖,建议 python 版本>=3.10
- 安装
uv
pip install uv
- 创建虚拟环境
uv venv --python 3.12
.\.venv\Scripts\activate
- 安装包
uv add -r requirements.txt
- 安装 torch 环境torch 环境请根据你系统的 cuda 版本来安装 torch 官网
uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
可以通过nvidia-smi
来查询你的显卡支持的最高cuda
版本
nvidia-smi +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 560.94 Driver Version: 560.94 CUDA Version: 12.6 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Driver-Model | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA GeForce RTX 4070 Ti WDDM | 00000000:01:00.0 On | N/A | | 0% 28C P8 4W / 285W | 2157MiB / 12282MiB | 2% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+
通过 nvcc
来查询你电脑已安装的cuda
版本
其实是你环境变量中配置的版本而已,一个电脑上可以安装多个 cuda
nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2022 NVIDIA Corporation Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022 Cuda compilation tools, release 11.8, V11.8.89 Build cuda_11.8.r11.8/compiler.31833905_0
环境配置
复制 .env.example
文件,改名为 .env
配置其缺少的 APIKey
其中 AUDIO_API_KEY
是可以支持多 Key 轮询的,用,
分割
(做到这一步我才意识到可以多 Key 支持高并发 😂 如果需 Gemini 需要高并发的话,可能需要手动去 copy 多 key 的处理的代码到board.py
中了)
配置起点达人中心
的 Cookie 用来抓取小说 起点达人中心
安装ffmpeg
最好安装GPU加速版,否则生成的很慢(好像新一点的版本都已经支持gpu加速了) Github
使用 ffmpeg -hwaccels
来列出硬件加速选项
Hardware acceleration methods: cuda vaapi dxva2 qsv d3d11va opencl vulkan
运行项目
我是直接按照项目流程来逐个运行文件的
uv run app/main.py # 获取小说内容 uv run board.py # 生成分镜 uv run prompt.py # 优化提示词 uv run image.py # 生成图片 uv run audio.py # 合成音频 uv run tts.py # 生成字幕 uv run video.py # 制作分镜视频 uv run video_end.py # 最终合成
如果你想要直接运行 也可以直接运行 main.py
uv run main.py
Whisper 模型规格概览
Whisper 模型规格
模型规格 | 参数量 | 最低显存要求 |
---|---|---|
Tiny | 39M | ~1GB |
Base | 74M | ~1GB |
Small | 244M | ~2GB |
Medium | 769M | ~5GB |
Large | 1550M | ~10GB |
Large-v2 | 1550M | ~10GB |
Large-v3 | 1550M | ~10GB |
- 运行示例代码 可以先写个测试,运行示例代码来下载 Whisper
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration
# 选择适合您显存的模型大小,例如"medium"
model_id = "openai/whisper-medium"
# 启用半精度以节省显存
processor = WhisperProcessor.from_pretrained(model_id)
model = WhisperForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="auto"
)
# 确保模型在GPU上运行
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)