Извлечение текста выполняется довольно просто. С помощью простого API и всего нескольких строк кода можно извлечь весь текст из PDF-файла в виде одной строки, готовой для дальнейшей обработки. SautinSoft.PDF может считывать PDF-файлы из приложений на C# или VB.NET с очень высокой скоростью; он может прочитать текст PDF-файла на 1000 страниц (почти 500 000 слов) всего за 3 секунды.
Метод извлечения текста из PDF-документов необходим для различных отраслей и задач, таких как извлечение данных, поиск информации, анализ контента и управление документами. Он позволяет автоматически извлекать текстовые данные из PDF-файлов, которые затем можно обрабатывать, анализировать и использовать различными способами. С помощью этого метода пользователи могут легко извлекать и обрабатывать текстовое содержимое PDF-документов, что позволяет им быстро искать, редактировать и использовать извлечённый текст по своему усмотрению. Независимо от того, являетесь ли вы исследователем, аналитиком данных, создателем контента или разработчиком, метод извлечения текста из PDF-файлов упрощает работу с текстовой информацией, хранящейся в формате PDF.
Ниже приведено пошаговое руководство по извлечению текста из PDF-документов с помощью PDF.Net:
Полный код
using System;
using System.IO;
using SautinSoft;
using SautinSoft.Pdf;
using SautinSoft.Pdf.Content;
namespace Sample
{
class Sample
{
/// <summary>
/// Read text from PDF.
/// </summary>
/// <remarks>
/// Details: https://sautinsoft.com/products/pdf/help/net/developer-guide/read-text-from-pdf-files.php
/// </remarks>
static void Main(string[] args)
{
// Before starting this example, please get a free 100-day trial key:
// https://sautinsoft.com/start-for-free/
// Apply the key here:
// PdfDocument.SetLicense("...");
string pdfFile = Path.GetFullPath(@"..\..\..\simple text.pdf");
// Load PDF Document.
using (var document = PdfDocument.Load(pdfFile))
{
foreach (var page in document.Pages)
{
// Write text from pdf file to console.
Console.WriteLine(page.Content.ToString());
}
}
}
}
}
Option Infer On
Imports System
Imports System.IO
Imports SautinSoft
Imports SautinSoft.Pdf
Imports SautinSoft.Pdf.Content
Namespace Sample
Friend Class Sample
''' <summary>
''' Read text from PDF.
''' </summary>
''' <remarks>
''' Details: https://sautinsoft.com/products/pdf/help/net/developer-guide/read-text-from-pdf-files.php
''' </remarks>
Shared Sub Main(ByVal args() As String)
' Before starting this example, please get a free 100-day trial key:
' https://sautinsoft.com/start-for-free/
' Apply the key here:
' PdfDocument.SetLicense("...");
Dim pdfFile As String = Path.GetFullPath("..\..\..\simple text.pdf")
' Load PDF Document.
Using document = PdfDocument.Load(pdfFile)
For Each page In document.Pages
' Write text from pdf file to console.
Console.WriteLine(page.Content.ToString())
Next page
End Using
End Sub
End Class
End Namespace
Если вам нужен пример кода или у вас есть вопрос: напишите нам по адресу support@sautinsoft.ru или спросите в онлайн-чате (правый нижний угол этой страницы) или используйте форму ниже: