Paper2Video：学术论文自动生成演讲视频的工具，可将文章直接转换成 PPT 演讲视频

开源项目
25年10月31日
编辑

amiao

最新修改 2025年 10月 31日 by amiao

完成了一篇论文或者文章，但不擅长讲解，不知道如何讲解更清晰？

那让Paper2Video来帮助你吧，一个可以将学术论文转换成PPT并自动生成演讲视频的好项目。

提供一篇论文+一张作者照片+一段参考音频，它就能帮你生成一个生动的演讲解说视频。对于偏专业和学术性的场景，这个工具几乎能承担起人工完成的工作，做学术汇报和做课程的朋友有福了！

网站介绍

Paper2Video，一个自动化系统，旨在将学术论文（如 LaTeX 或 PDF）自动转换成完整的演讲视频，提供模块化架构，支持不同模型（如 GPT-4、Gemini、Hallo2 等）自由组合。

它能够根据论文内容自动生成幻灯片、字幕、语音讲解、光标指示，甚至可选的讲者视频，从而实现从论文到学术报告的全流程自动化，极大地简化了科研成果展示与传播的过程。

截图

Paper2Video：学术论文自动生成演讲视频的工具，可将文章直接转换成 PPT 演讲视频

这项工作解决了学术演讲的两个核心问题:

左边: 如何根据论文制作学术演讲?
PaperTalker — 集成幻灯片、字幕、光标、语音合成和演讲者视频渲染的多智能体。
右边: 如何评估学术演讲视频?
Paper2Video — 一个具有精心设计的指标来评估演示质量的基准。

快速上手

1. 环境配置

准备Python环境:

cd src
conda create -n p2v python=3.10
conda activate p2v
pip install -r requirements.txt
conda install -c conda-forge tectonic

[可选] 如果您不需要数字人展示，请跳过此部分。

下载所依赖代码，并按照Hallo2中的说明下载模型权重。

git clone https://github.com/fudan-generative-vision/hallo2.git

您需要单独准备用于 talking-head generation 的环境，以避免潜在的软件包冲突，请参考Hallo2。安装完成后，使用 which python 命令获取 Python 环境路径。

cd hallo2
conda create -n hallo python=3.10
conda activate hallo
pip install -r requirements.txt

2. 大语言模型配置

在终端配置您的API 凭证:

export GEMINI_API_KEY="your_gemini_key_here"
export OPENAI_API_KEY="your_openai_key_here"

最佳实践是针对 LLM 和 VLM 使用 GPT4.1 或 Gemini2.5-Pro。我们也支持本地部署开源模型（例如 Qwen），详情请参阅 Paper2Poster。

3. 推理

脚本 pipeline.py 提供了一个自动化的学术演示视频生成流程。它以 LaTeX 论文素材 和 参考图像/音频 作为输入，并经过多个子模块（幻灯片 → 字幕 → 语音 → 光标 → 头部特写）生成完整的演示视频。⚡ 运行此流程的最低推荐 GPU 为 NVIDIA A6000，显存 48G。

网站链接

github地址：https://github.com/showlab/Paper2Video

官方地址：https://showlab.github.io/Paper2Video/

{{userData.name}}已认证