使用等高线从图像中提取文本区域 - Opencv，Python-Java 学习之路

我一直在使用python中的opencv开发名片的OCR项目 .

直到现在，我已经能够裁剪图像卡 . 我试图使用轮廓检测裁剪图像中的文本区域 . （即，拍摄Canny图像，从这些边缘找到轮廓并将它们扩大以获得连接的组件，这些组件必须是文本区域） .

当我试图检测闭合的连接组件时，一些轮廓覆盖了除文本之外的额外部分（如符号），如this图像 .

因此，在这些文本区域上应用tesseract-ocr会产生不需要的文本（垃圾）以及所需的文本 . 这是我的OCR的结果 .

**（P）（972）656-6074
（F）（972）656-6077
（M）（214）505-8473
5910 N.中央高速公路，Suite1625»
达拉斯，得克萨斯州75206
ken.shulman@capviewpartners.com
WKW™/”
CAPVIEW

EPARTNERS
Ken Shulman，CRE
伙伴**

我尝试修改扩张因子，但图像中符号的一部分总是成为文本区域的一部分 .

我想尽可能优化预处理，以便tesseract-ocr不会出错 . 那么如何从文本区域中删除那些额外的部分（符号）还是有另一种方法？

使用等高线从图像中提取文本区域 - Opencv，Python