editbanana：利用 AI 将您的图像或 PDF 转换为可编辑的 Draw.io 图表，开源

发布于 2/27更新于 2/27

410

Edit Banana，能把不可编辑的图片、PDF 或扫描表格直接转化为可编辑格式。基于 SAM 3 和多模态大型模型，可实现高保真重建，保留原始图表细节和逻辑关系。

使用场景：

场景 1：将图形转换为 Drawio（xml、svg、pptx）

场景 2：PDF 转 PPTX

网站截图

主要特点

高级分割：使用我们微调的SAM 3（Segment Anything Model 3）对图表元素进行分割。
固定多轮 VLM 扫描：由多模态 LLM（Qwen-VL/GPT-4V）指导的提取过程。
高质量OCR：
- Azure 文档智能，实现精准的文本本地化。
- 回退机制：如果 Azure 服务无法访问，则自动切换到基于 VLM 的端到端 OCR。
- Mistral Vision/MLLM用于校正文本并将数学公式转换为LaTeX 格式( $\int f （ x ） d x$ ）。
- 裁剪引导策略：提取文本/公式区域，并将高分辨率裁剪区域发送到 LLM 进行像素级精确识别。
用户系统：
- 注册：新用户可获得10 个免费积分。
- 积分制：按使用付费模式可防止资源滥用。
多用户并发：内置支持并发用户会话，使用全局锁机制实现线程安全的 GPU 访问，并使用LRU 缓存（最近最少使用）在请求之间持久化图像嵌入，从而确保高性能和稳定性。
Web界面：基于React的前端+FastAPI后端，方便上传和编辑。

项目链接

开源地址：https://github.com/bit-datalab/edit-banana

网站地址：https://editbanana.anxin6.cn/

网站需要注册使用，邮箱注册登录即可，登录上赠送10个points，可以邀请别人来赚取point

这里是阿喵的邀请码 TEXYBDM1

0 讨论

热门最新

总结

暂无总结

0 / 600