Извлечение текста из PDF-файла на C# и .NET

Извлечение текста выполняется довольно просто. С помощью простого API и всего нескольких строк кода можно извлечь весь текст из PDF-файла в виде одной строки, готовой для дальнейшей обработки. SautinSoft.PDF может считывать PDF-файлы из приложений на C# или VB.NET с очень высокой скоростью; он может прочитать текст PDF-файла на 1000 страниц (почти 500 000 слов) всего за 3 секунды.

Метод извлечения текста из PDF-документов необходим для различных отраслей и задач, таких как извлечение данных, поиск информации, анализ контента и управление документами. Он позволяет автоматически извлекать текстовые данные из PDF-файлов, которые затем можно обрабатывать, анализировать и использовать различными способами. С помощью этого метода пользователи могут легко извлекать и обрабатывать текстовое содержимое PDF-документов, что позволяет им быстро искать, редактировать и использовать извлечённый текст по своему усмотрению. Независимо от того, являетесь ли вы исследователем, аналитиком данных, создателем контента или разработчиком, метод извлечения текста из PDF-файлов упрощает работу с текстовой информацией, хранящейся в формате PDF.

Ниже приведено пошаговое руководство по извлечению текста из PDF-документов с помощью PDF.Net:

  1. Добавить SautinSoft.PDF из NuGet.
  2. Загрузить PDF-документ.
  3. Показать весь текст, содержащийся на каждой странице, в консоли.

Входной файл: simple text.pdf

Выходной результат:

Полный код

using System;
using System.IO;
using SautinSoft;
using SautinSoft.Pdf;
using SautinSoft.Pdf.Content;

namespace Sample
{
    class Sample
    {
        /// <summary>
        /// Read text from PDF.
        /// </summary>
        /// <remarks>
        /// Details: https://sautinsoft.com/products/pdf/help/net/developer-guide/read-text-from-pdf-files.php
        /// </remarks>
        static void Main(string[] args)
        {
            // Before starting this example, please get a free 100-day trial key:
            // https://sautinsoft.com/start-for-free/

            // Apply the key here:
            // PdfDocument.SetLicense("...");
            
            string pdfFile = Path.GetFullPath(@"..\..\..\simple text.pdf");

            // Load PDF Document.
            using (var document = PdfDocument.Load(pdfFile))
            {
                foreach (var page in document.Pages)
                {
                    // Write text from pdf file to console.
                    Console.WriteLine(page.Content.ToString());
                }
            }
        }
    }
}

Download

Option Infer On

Imports System
Imports System.IO
Imports SautinSoft
Imports SautinSoft.Pdf
Imports SautinSoft.Pdf.Content

Namespace Sample
	Friend Class Sample
		''' <summary>
		''' Read text from PDF.
		''' </summary>
		''' <remarks>
		''' Details: https://sautinsoft.com/products/pdf/help/net/developer-guide/read-text-from-pdf-files.php
		''' </remarks>
		Shared Sub Main(ByVal args() As String)
			' Before starting this example, please get a free 100-day trial key:
			' https://sautinsoft.com/start-for-free/

			' Apply the key here:
			' PdfDocument.SetLicense("...");

			Dim pdfFile As String = Path.GetFullPath("..\..\..\simple text.pdf")

			' Load PDF Document.
			Using document = PdfDocument.Load(pdfFile)
				For Each page In document.Pages
					' Write text from pdf file to console.
					Console.WriteLine(page.Content.ToString())
				Next page
			End Using
		End Sub
	End Class
End Namespace

Download


Если вам нужен пример кода или у вас есть вопрос: напишите нам по адресу support@sautinsoft.ru или спросите в онлайн-чате (правый нижний угол этой страницы) или используйте форму ниже:



Вопросы и предложения всегда приветствуются!

Мы разрабатываем компоненты .Net с 2002 года. Мы знаем форматы PDF, DOCX, RTF, HTML, XLSX и Images. Если вам нужна помощь в создании, изменении или преобразовании документов в различных форматах, мы можем вам помочь. Мы напишем для вас любой пример кода абсолютно бесплатно.