Edit Banana,能把不可编辑的图片、PDF 或扫描表格直接转化为可编辑格式。基于 SAM 3 和多模态大型模型,可实现高保真重建,保留原始图表细节和逻辑关系。
使用场景:
场景 1:将图形转换为 Drawio(xml、svg、pptx)
场景 2:PDF 转 PPTX
网站截图


主要特点
- 高级分割:使用我们微调的SAM 3(Segment Anything Model 3)对图表元素进行分割。
- 固定多轮 VLM 扫描:由多模态 LLM(Qwen-VL/GPT-4V)指导的提取过程。
- 高质量OCR:
- Azure 文档智能,实现精准的文本本地化。
- 回退机制:如果 Azure 服务无法访问,则自动切换到基于 VLM 的端到端 OCR。
- Mistral Vision/MLLM用于校正文本并将数学公式转换为LaTeX 格式()。
- 裁剪引导策略:提取文本/公式区域,并将高分辨率裁剪区域发送到 LLM 进行像素级精确识别。
- 用户系统:
- 注册:新用户可获得10 个免费积分。
- 积分制:按使用付费模式可防止资源滥用。
- 多用户并发:内置支持并发用户会话,使用全局锁机制实现线程安全的 GPU 访问,并使用LRU 缓存(最近最少使用)在请求之间持久化图像嵌入,从而确保高性能和稳定性。
- Web界面:基于React的前端+FastAPI后端,方便上传和编辑。
项目链接
开源地址:https://github.com/bit-datalab/edit-banana
网站地址:https://editbanana.anxin6.cn/
网站需要注册使用,邮箱注册登录即可,登录上赠送10个points,可以邀请别人来赚取point
这里是阿喵的邀请码 TEXYBDM1

