extract text from images

nsolov · nsolov · commit 563ee2ded7e8 · 2023-07-10T13:02:04.000+04:00
diff --git a/Dockerfile b/Dockerfile
@@ -1,6 +1,14 @@
 ARG IMAGE=intersystemsdc/iris-community:latest
 FROM $IMAGE
 
+USER root
+
+RUN apt-get update && \
+    apt-get install -yq tesseract-ocr && \
+    apt-get install -yq poppler-utils
+
+USER ${ISC_PACKAGE_MGRUSER}
+
 WORKDIR /home/irisowner/dev
 
 ARG TESTS=0
diff --git a/README.md b/README.md
@@ -1,13 +1,23 @@
 ## text-extractor
-Extracts text from PDF files using embeded python
+Extracts text from PDF, PPTX files and Images (PNG, JPEG, ...) using embeded python
 
 
 ## Installation ZPM
 
+1. text-extractor
 ```
 USER>zpm "install text-extractor"
 ```
 
+2. Images (optional)
+This package uses tesseract-ocr to extract text from images. If you will be using to extract text from images, you will need to install tesseract-ocr additionally: apt-get install -yq tesseract-ocr:
+`apt-get install tesseract-ocr`
+
+If the text is in any of the languages other than English, you will need the appropriate packages, for example, tesseract-ocr-fra for French: `apt-get install tesseract-ocr-fra`
+
+3. PDF to Image (optional)
+This package supports several ways to work with PDF. One of them involves converting pdf to images first, and then using text extraction from images. If you will use this approach you need to install poppler-utils:
+`apt-get install poppler-utils`
 
 ## How to work with it
 
@@ -32,6 +42,29 @@ USER>set pdf = ##class(NSolov.TextExtract.PDF).%New("/full/path/to/file.pdf")
 USER>set string = pdf.Extract(0)
 ```
 
+The examples above ignore images that can be inside .pdf and also contain text data
+
+To get text and add text from images to it - use:
+```
+USER>set pdf = ##class(NSolov.TextExtract.PDF).%New("/full/path/to/file.pdf")
+USER>set string = pdf.ExtractWithImages(0,"eng")
+```
+
+Another option is to save each .pdf page as an image, and then extract the text from those images
+```
+USER>set pdf = ##class(NSolov.TextExtract.PDF).%New("/full/path/to/file.pdf")
+USER>set string = pdf.ExtractWithImages(0,"eng")
+```
+
+### IMAGES
+
+To get text from the image:
+```
+USER>set img = ##class(NSolov.TextExtract.Image).%New("/full/path/to/file.png", "fra")
+USER>set string = img.Extract()
+```
+(second argument in %New() is language (`eng` by default))
+
 ### PPTX
 
 To get text from the whole presentation:
@@ -55,5 +88,5 @@ USER>set string = pptx.Extract(0)
 
 ### Interoperability
 
-From Interoperability you can use Business Operation `NSolov.TextExtract.BusinessOperation` with request `NSolov.TextExtract.PDFRequest` for pdf and `NSolov.TextExtract.PPTXRequest` for pptx.
+From Interoperability you can use Business Operation `NSolov.TextExtract.BusinessOperation` with request `NSolov.TextExtract.PDFRequest` for pdf, `NSolov.TextExtract.PPTXRequest` for pptx and `NSolov.TextExtract.ImageRequest` for images.
 The response is `Ens.StringContainer` object.
diff --git a/module.xml b/module.xml
@@ -3,8 +3,8 @@
   <Document name="text-extractor.ZPM">
     <Module>
       <Name>text-extractor</Name>
-      <Version>2.0.0</Version>
-      <Description>Extracts text from .pdf and .pptx files</Description>
+      <Version>2.1.0</Version>
+      <Description>Extracts text from .pdf, images and .pptx files</Description>
       <Packaging>module</Packaging>
       <SourcesRoot>src</SourcesRoot>
       <Resource Name="NSolov.TextExtract.PKG"/>
diff --git a/requirements.txt b/requirements.txt
@@ -1,2 +1,4 @@
 pypdf==3.9.1
-python-pptx==0.6.21
+python-pptx==0.6.21
+pytesseract==0.3.10
+pdf2image==1.16.3
diff --git a/src/NSolov/TextExtract/BusinessOperation.cls b/src/NSolov/TextExtract/BusinessOperation.cls
@@ -4,8 +4,16 @@ Class NSolov.TextExtract.BusinessOperation Extends Ens.BusinessOperation
 Method ExtractTextFromPDF(pRequest As NSolov.TextExtract.PDFRequest, Output pResponse As Ens.StringContainer) As %Status
 {
     Try {
-        Set extractor = ##class(NSolov.TextExtract.PDF).%New(pRequest.Filename)
-        Set pResponse = ##class(Ens.StringContainer).%New(extractor.Extract(pRequest.Page))
+        Set text = ""
+        Set extractor = ##class(NSolov.TextExtract.PDF).%New( ##class(%File).NormalizeFilenameWithSpaces(pRequest.Filename) )
+        If (pRequest.UseOCR = "pagesAsImages") {
+            Set text = extractor.ExtractAsImages(pRequest.Page, pRequest.LanguageOCR)
+        } ElseIf (pRequest.UseOCR = "fromImages") {
+            Set text = extractor.ExtractWithImages(pRequest.Page, pRequest.LanguageOCR)
+        } Else {
+            Set text = extractor.Extract(pRequest.Page)
+        }
+        Set pResponse = ##class(Ens.StringContainer).%New(text)
         Return $$$OK
     } Catch ex {
         Return ex.AsStatus()
@@ -23,6 +31,17 @@ Method ExtractTextFromPPTX(pRequest As NSolov.TextExtract.PPTXRequest, Output pR
     }
 }
 
+Method ExtractTextFromImage(pRequest As NSolov.TextExtract.ImageRequest, Output pResponse As Ens.StringContainer) As %Status
+{
+    Try {
+        Set extractor = ##class(NSolov.TextExtract.Image).%New(pRequest.Filename, pRequest.Language)
+        Set pResponse = ##class(Ens.StringContainer).%New(extractor.Extract())
+    } Catch ex {
+        Return ex.AsStatus()
+    }
+    Return $$$OK
+}
+
 XData MessageMap
 {
 <MapItems>
@@ -32,6 +51,9 @@ XData MessageMap
   <MapItem MessageType="NSolov.TextExtract.PPTXRequest">
     <Method>ExtractTextFromPPTX</Method>
   </MapItem>
+  <MapItem MessageType="NSolov.TextExtract.ImageRequest">
+    <Method>ExtractTextFromImage</Method>
+  </MapItem>
 </MapItems>
 }
 
diff --git a/src/NSolov/TextExtract/Image.cls b/src/NSolov/TextExtract/Image.cls
@@ -0,0 +1,22 @@
+Class NSolov.TextExtract.Image Extends NSolov.TextExtract.AbstractExtractor
+{
+
+Property Language As %String;
+
+Method %OnNew(filename As %String, language As %String = "eng") As %Status
+{
+    do ##super(filename)
+    set ..Language = language
+    return $$$OK
+}
+
+/// Extract text from image
+Method Extract() As %String [ Language = python ]
+{
+    from pytesseract import pytesseract
+
+    str = pytesseract.image_to_string(self.Filename, lang=self.Language)
+    return str
+}
+
+}
diff --git a/src/NSolov/TextExtract/ImageRequest.cls b/src/NSolov/TextExtract/ImageRequest.cls
@@ -0,0 +1,23 @@
+Class NSolov.TextExtract.ImageRequest Extends Ens.Request
+{
+
+Property Filename As %String(MAXLEN = "");
+
+Property Language As %String [ InitialExpression = "eng" ];
+
+Storage Default
+{
+<Data name="ImageRequestDefaultData">
+<Subscript>"ImageRequest"</Subscript>
+<Value name="1">
+<Value>Filename</Value>
+</Value>
+<Value name="2">
+<Value>Language</Value>
+</Value>
+</Data>
+<DefaultData>ImageRequestDefaultData</DefaultData>
+<Type>%Storage.Persistent</Type>
+}
+
+}
diff --git a/src/NSolov/TextExtract/PDF.cls b/src/NSolov/TextExtract/PDF.cls
@@ -1,6 +1,8 @@
 Class NSolov.TextExtract.PDF Extends NSolov.TextExtract.AbstractExtractor
 {
 
+Property TmpDir As %String(MAXLEN = 1000);
+
 Method GetNumPages() As %Integer [ Language = python ]
 {
     from pypdf import PdfReader
@@ -10,7 +12,118 @@ Method GetNumPages() As %Integer [ Language = python ]
     return len(pdf_reader.pages)
 }
 
-/// Extract text from a page
+/// returns the number of saved images
+Method SavePagesAsImages() As %Integer [ Language = python, Private ]
+{
+
+    from pdf2image import convert_from_path
+
+    images = convert_from_path(self.Filename)
+    for i in range(len(images)):
+        images[i].save(self.TmpDir+'page'+ str(i).zfill(5) +'.ppm', 'PPM')
+
+    return len(images)
+}
+
+Method SaveImagesFromPage(pagenumber As %Integer) As %Integer [ Language = python ]
+{
+    from pypdf import PdfReader
+    import os
+    import shutil
+
+    pdf_reader = PdfReader(self.Filename)
+
+    count = 0
+
+    try:
+        if (pagenumber == -1):
+            # all pages
+            for page in pdf_reader.pages:
+                print(page.images)
+                for image_file_object in page.images:
+                    with open(self.TmpDir+str(count) + image_file_object.name, "wb") as fp:
+                        fp.write(image_file_object.data)
+                        count += 1
+        else:
+            page = pdf_reader.pages[pagenumber]
+
+            for image_file_object in page.images:
+                with open(self.TmpDir+str(count) + image_file_object.name, "wb") as fp:
+                    fp.write(image_file_object.data)
+                    count += 1
+    except:
+        shutil.rmtree(self.TmpDir)
+        os.makedirs(self.TmpDir)
+    return count
+}
+
+Method getTextFromOnePageWithImages(pagenum As %Integer = -1, lang = "eng") As %String
+{
+    Set ..TmpDir = ##class(%File).NormalizeDirectory($$$FileTempDir)
+    Set text = ..Extract(pagenum)
+    Set imgNum = ..SaveImagesFromPage(pagenum)
+    Set statement = ##class(%SQL.Statement).%New()
+    Do statement.%PrepareClassQuery("%File", "FileSet")
+    Set rs = statement.%Execute(..TmpDir)
+    While rs.%Next(.sc) {
+        If $$$ISERR(sc) Quit
+        Set file = rs.%Get("Name")
+        Set imgExtractor = ##class(NSolov.TextExtract.Image).%New(file, lang)
+        Set text = text_$$$NL_imgExtractor.Extract()
+    }
+    Do ##class(%File).RemoveDirectoryTree(..TmpDir)
+    Set ..TmpDir = ""
+    Return text
+}
+
+/// Extract text and text from each image
+Method ExtractWithImages(pageNum As %Integer = -1, lang As %String = "eng") As %String
+{
+    Set text = ""
+    If (pageNum = -1) {
+        // all pages
+        Set pnum = ..GetNumPages()
+        For i=0:1:pnum-1 {
+            Set text = text _ ..getTextFromOnePageWithImages(i, lang)
+        }
+    } Else {
+        // one page
+        Set text = ..getTextFromOnePageWithImages(pageNum, lang)
+    }
+    Return text
+}
+
+/// Save .pdf pages as images, than extract text from images
+Method ExtractAsImages(pageNum As %Integer = -1, lang As %String = "eng") As %String
+{
+    Set ..TmpDir = ##class(%File).NormalizeDirectory($$$FileTempDir)
+    Set imgNum = ..SavePagesAsImages()
+    Set text = ""
+    Set statement = ##class(%SQL.Statement).%New()
+    Do statement.%PrepareClassQuery("%File", "FileSet")
+    Set rs = statement.%Execute(..TmpDir)
+    Set i = 0
+    While rs.%Next(.sc) {
+        If $$$ISERR(sc) Quit
+        Set file = rs.%Get("Name")
+        If (pageNum = -1){
+            Set imgExtractor = ##class(NSolov.TextExtract.Image).%New(file, lang)
+            Set text = text_$$$NL_imgExtractor.Extract()
+        } Else {
+            If i=pageNum {
+                Set imgExtractor = ##class(NSolov.TextExtract.Image).%New(file, lang)
+                Set text = imgExtractor.Extract()
+                Quit
+            }
+        }
+        Set i = i + 1
+    }
+    Do ##class(%File).RemoveDirectoryTree(..TmpDir)
+    Set ..TmpDir = ""
+    Return text
+}
+
+/// Extracts text only from a page
 /// Use -1 to extract text from the whole document
 Method Extract(page As %Integer = -1) As %String [ Language = python ]
 {
diff --git a/src/NSolov/TextExtract/PDFRequest.cls b/src/NSolov/TextExtract/PDFRequest.cls
@@ -1,6 +1,14 @@
 Class NSolov.TextExtract.PDFRequest Extends Ens.Request
 {
 
+/// How to work with images in .pdf
+/// Empty value - extract only text
+/// fromImages - save all images from documents and concatenate text with text from images; you must install 'tesseract-ocr' to use this option
+/// pagesAsImages - save each page of .pdf as image and then use; you must install 'tesseract-ocr' and 'poppler-utils'
+Property UseOCR(VALUELIST = ",fromImages,pagesAsImages");
+
+Property LanguageOCR [ InitialExpression = "eng" ];
+
 Property Filename As %String(MAXLEN = "");
 
 /// use 0 for the first page
@@ -17,6 +25,12 @@ Storage Default
 <Value name="2">
 <Value>Page</Value>
 </Value>
+<Value name="3">
+<Value>UseOCR</Value>
+</Value>
+<Value name="4">
+<Value>LanguageOCR</Value>
+</Value>
 </Data>
 <DefaultData>PDFRequestDefaultData</DefaultData>
 <Type>%Storage.Persistent</Type>