最新修改 2025年 10月 25日 by amiao
模型介绍
DeepSeek_OCR_APP,为DeepSeek-OCR 提供支持的 OCR Web 前端OCR程序,直接在线识别各种图像,需要自行部署。
硬件:支持 CUDA 的 NVIDIA GPU,推荐:RTX 3090、RTX 4090、RTX 5090 或更高版本,最低要求:8-12GB VRAM(适用于该型号),更多的 VRAM 总是好的!
模型截图
核心功能
4 种核心 OCR 模式
- 纯文本 OCR - 从任何图像中提取原始文本
- 描述- 生成智能图像描述
- 查找- 使用视觉边界框定位特定术语
- 自由形式——针对特殊任务的自定义提示
UI 功能
🔍 多边界框支持(处理找到的术语的多个实例)
🎨 具有动画渐变的玻璃形态设计
🎯 拖放文件上传(默认最大 100MB)
🗑️ 轻松删除图像并重新上传
📦 具有适当坐标缩放的接地盒可视化
✨ 流畅的动画(Framer Motion)
📋 复制/下载结果
🎛️ 高级设置下拉菜单
📝 HTML 和 Markdown 渲染以进行格式化输出
快速配置
- 克隆并配置:git clone <repository-url> cd deepseek_ocr_app # Copy and customize environment variables cp .env.example .env # Edit .env to configure ports, upload limits, etc.
- 启动应用程序:docker compose up --build第一次运行将下载模型(~5-10GB),这可能需要一些时间。
- 访问应用程序:
- 前端:http://localhost:3000(或您配置的 FRONTEND_PORT)
- 后端 API:http://localhost:8000(或您配置的 API_PORT)
- API 文档:http://localhost:8000/docs
