El nodo PDF Parse se encuentra dentro de la categoría Nodos Parser. Este nodo se utiliza para extraer el texto de un archivo PDF.
En el siguiente video te contamos los parámetros para configurarlo:
Debajo encuentra la descripción de los campos que utilizarás en el proceso, como te mostramos en el video
- Nombre (opcional): nombre del nodo, desde aquí puedes cambiar el valor predeterminado.
- Base 64 string: deberás incorporar el archivo pdf en formato de texto plano base64.
- Output path: nombre de la variable donde se almacenará el texto analizado.
Adicionalmente, en el resultado del nodo encontrarás los siguientes parámetros de salida:
- numpages: la cantidad de hojas del PDF.
- numrender: la cantidad de hojas renderizadas del PDF.
- info: información complementaria del PDF (título, autor, fecha de creación, etc.).
- metadata
- version: versión de PDF.js (la librería que ejecuta el parseo).
- text: el texto extraído del PDF.
Descarga el flujo con el ejemplo en este link
Ten en cuenta:
Si utilizas el ejemplo, incorpora un nodo Inject antes del nodo PDF Parse, que deberá contener el archivo codificado en base64.