editbanana:利用 AI 将您的图像或 PDF 转换为可编辑的 Draw.io 图表,开源

发布于 更新于
48

Edit Banana,能把不可编辑的图片、PDF 或扫描表格直接转化为可编辑格式。基于 SAM 3 和多模态大型模型,可实现高保真重建,保留原始图表细节和逻辑关系。

使用场景:

场景 1:将图形转换为 Drawio(xml、svg、pptx)

场景 2:PDF 转 PPTX

网站截图

主要特点

  • 高级分割:使用我们微调的SAM 3(Segment Anything Model 3)对图表元素进行分割。
  • 固定多轮 VLM 扫描:由多模态 LLM(Qwen-VL/GPT-4V)指导的提取过程。
  • 高质量OCR
    • Azure 文档智能,实现精准的文本本地化。
    • 回退机制:如果 Azure 服务无法访问,则自动切换到基于 VLM 的端到端 OCR。
    • Mistral Vision/MLLM用于校正文本并将数学公式转换为LaTeX 格式(fxdx)。
    • 裁剪引导策略:提取文本/公式区域,并将高分辨率裁剪区域发送到 LLM 进行像素级精确识别。
  • 用户系统
    • 注册:新用户可获得10 个免费积分
    • 积分制:按使用付费模式可防止资源滥用。
  • 多用户并发:内置支持并发用户会话,使用全局锁机制实现线程安全的 GPU 访问,并使用LRU 缓存(最近最少使用)在请求之间持久化图像嵌入,从而确保高性能和稳定性。
  • Web界面:基于React的前端+FastAPI后端,方便上传和编辑。

项目链接

开源地址:https://github.com/bit-datalab/edit-banana

网站地址:https://editbanana.anxin6.cn/

网站需要注册使用,邮箱注册登录即可,登录上赠送10个points,可以邀请别人来赚取point

0 赞
0 收藏
分享
0 讨论
反馈
0 / 600
0 条评论
热门最新
嗨,早上好!
所有的成功,都源自一个勇敢的开始