Простой способ извлечения текста из PDF на C# .Net
Поддерживает все PDF 1.0-1.7;
Конвертирует защищенные паролем документы;
Конвертирует настраиваемые PDF-страницы;
Извлекает текст из PDF;
Поддерживает символы Юникода.
Введение
Если Вы ищете компонент .NET для извлечения текстовых данных из PDF, Вы находитесь в правильном месте! «PDF Focus .Net» поможет Вам извлечь текст из целого PDF-документа или с отдельных его страниц. Для этого Вам нужно только добавить ссылку на файл .dll (или установить пакет с NuGet) и ввести несколько строк кода.
Чтобы показать, как легко это сделать, рассмотрим простой код на C#:
SautinSoft.PdfFocus f = new SautinSoft.PdfFocus();
f.OpenPdf(@"c:\Pushkin Poems.pdf");
if (f.PageCount > 0)
{
f.ToText(@"c:\Pushkin Poems.txt");
}
«PDF Focus .Net» извлекает красивый текст без нежелательных пробелов между буквами в словах и поддерживает символы Юникода. Текстовый макет выглядит так же, как в RTF, с правильными разрывами строк и столбцов.
Компонент совместим со всеми языками .NET и поддерживает основные операционные системы.
Windows
Linux
Mac OS
Обратите внимание, что «PDF Focus .Net» полностью написан на управляемом C#. Это делает его абсолютно автономным и независимым.
.NET Framework 4.0, 4.5, 4.6.1 и выше. Старую версию .NET 2.0 можно найти здесь.
.NET Core 2.0 и выше.
Некоторые примеры, чтобы конвертировать PDF в текст на C# и VB.Net
1. Конвертирование PDF-файла в текст с помощью C#:
SautinSoft.PdfFocus f = new SautinSoft.PdfFocus();
f.OpenPdf(@"d:\Cook Book.pdf");
if (f.PageCount > 2)
{
//Convert only pages from 2 to 3 in Text
f.ToText(@"d:\Cook Book.txt", 2, 3);
}
2. Преобразование всего PDF-документа в текст в памяти с помощью C#:
SautinSoft.PdfFocus f = new SautinSoft.PdfFocus();
//Read PDF to byte array
byte[] pdf = File.ReadAllBytes(@"d:\Sample.pdf");
f.OpenPdf(pdf);
if (f.PageCount > 0)
{
string text = f.ToText();
//Save to text file
File.WriteAllText(@"d:\Sample.txt", text);
}
3. Извлечение текста со всех страниц PDF на ASP.Net/VB.Net:
Dim f As New SautinSoft.PdfFocus()
Dim url As New Uri("http://www.website.com/sample.pdf")
f.OpenPdf(url)
If f.PageCount > 0 Then
'Convert whole PDF to Text (extract text from PDF)
Dim text As String = f.ToText()
'show text
TextBox1.Text = Text
Else
TextBox1.Text = "Converting failed!"
End If
4. Конвертирование 1-ой страницы PDF-документа в текст на VB.Net:
Dim f As New SautinSoft.PdfFocus()
Dim pdf() As Byte = File.ReadAllBytes("d:\Simple.pdf")
Dim text As String = ""
f.OpenPdf(pdf)
If f.PageCount > 0 Then
text = f.ToText(1, 1)
'show text
If text <> "" Then
TextBox1.Text = text
End If
End If
Есть вопрос?
Если у Вас есть вопросы,
нужна помощь
или пример кода как конвертировать на C#, VB.NET, ASP.NET,
обращайтесь в нашу службу поддержки по адресу support@sautinsoft.com или спросите в онлайн-чате (правый нижний угол этой страницы). Мы Вам обязательно поможем!
Основные преимущества «PDF Focus .Net»:
Экономия времени и никаких затрат на разработку продукта.
Написание собственного конвертера PDF на C# требует много дней напряженной работы и занимает около 100000 строк кода. «PDF Focus .Net» сэкономит Ваше время, нужно лишь добавить ссылку на "SautinSoft.PdfFocus.dll" и написать 3-4 C# строки кода.
«PDF Focus .Net» предоставляет набор API для конвертирования PDF в различных форматах сразу: Word, DOCX, RTF, Excel, HTML, текст, многостраничный TIFF, JPEG, PNG.
«PDF Focus .Net» является абсолютно автономным компонентом PDF.
Клиенты могут не иметь Adobe Acrobat, MS Word, Excel или другого программного обеспечения.
Программное обеспечение будет иметь один из самых быстрых API для конвертирования PDF-файлов, здесь Вы можете проверить.
Например, если Вам нужен только API для преобразования PDF в HTML и Вы не нуждаетесь в других функциях, можно рассмотреть «PDF Focus .Net - HTML Edition». Это сэкономит вложения.
Вы оплачиваете один раз и можно пользоваться «PDF Focus .Net» без каких-либо дополнительных сборов. Лицензия никогда не истекает .
В качестве бонуса Вы получате неограниченную техническую поддержку независимо от даты Вашего приобретения.