OCR模型体验 – 云计算技术钻研

我们拿一张随便从网上找到的发票图片先试试，体验下差异。

一、百度飞桨OCR

效果：

输出的是原始的识别内容，总体内容和文字以及数字是正确的，但是。。。比较原始。并不是针对票据或者特定场景使用的。

二、合合信息Textin

效果：

这样的识别效果，是很优秀了，在原始OCR识别的基础上，针对发票场景，增加了票据类型识别，以及字段提取。

国内领先的OCR供应商，果然不是盖的。

如果我们要手搓一个合合信息Textin这样的模型效果，需要怎么搞？

将PaddleOCR与DeepSeek模型（如DeepSeek-R1）结合使用，可以实现**“OCR文本提取+大模型语义理解”的联合解决方案**，在复杂文档解析、结构化信息抽取等场景中显著提升效果。以下是详细评估与实现指南：

模块	功能	DeepSeek价值
PaddleOCR	高精度文本检测与识别	提供准确的原始文本输入（避免GIGO原则）
DeepSeek模型	上下文理解、结构化解析、多语言处理	补足OCR无法处理的语义关联与逻辑推理

后面抽时间试试看。