горизонтально расположенные полосы: белая, синяя, красная

Конвертирование PDF-документов в XML

  • Поддерживает все PDF 1.0-1.7, PDF/A;
  • Конвертирует PDF в файл, поток, URL или байтовый массив;
  • Производит правильно построенный XML-документ;
  • Предлагает два режима преобразования:
    • — всего текста
    • — только табличных данных.
схема перехода красного круга с надписью PDF в розовый прямоугольник с надписью XML

SautinSoft.PdfFocus предоставляет полный набор API для преобразования PDF-документов в формат XML, используя C# или VB.NET

  • Поддерживает все PDF 1.0-1.7, PDF/A;
  • Конвертирует защищенные паролем документы (при наличии пароля);
  • Позволяет конвертировать заданный диапазон PDF-страниц;
  • Конвертирует PDF в файл, поток, URL или байтовый массив;
  • Производит правильно построенный XML 1.0;
  • Вы можете указать пользовательские имена для XML-узлов.
  • Предлагает два режима преобразования:
    • — преобразование всего текста
    • — или только табличных данных.

Загрузка

DEMO-версия бесплатна.

Простой пример, как добавить функцию 'PDF to XML' в любое приложение .NET на C#:

SautinSoft.PdfFocus f = new SautinSoft.PdfFocus();
f.XmlOptions.ConvertNonTabularDataToSpreadsheet = false;
f.OpenPdf(@"c:\Table.pdf");
f.ToXml(@"c:\Table.xml");

После запуска этого кода Вы получите XML-документ, созданный из Table.pdf.

Поскольку мы присвоили опции ConvertNonTabularDataToSpreadsheet значение "false" - все текстовые данные будут пропущены. Т.е. только таблицы будут преобразованы в XML.

<document>
  <page index="1">
    <table>
      <tgroup cols="5">
        <row>
          <entry rowspan="2">September</entry>
          <entry colspan="2">October</entry>
          <entry colspan="2">November</entry>
        </row>
      </tgroup>
    </table>
  </page>
</document>

Таким образом, Вы можете настроить компонент, чтобы получить такой XML-документ, какой хотите.

Некоторые примеры преобразования PDF в XML на C# и VB.NET

1. Конвертирование PDF в XML на C#:

string pathToPdf = @"c:\Table.pdf";
string pathToXml = Path.ChangeExtension(pathToPdf, ".xml");

// Convert PDF file to XML file.
SautinSoft.PdfFocus f = new SautinSoft.PdfFocus();
// This property is necessary only for registered version.
//f.Serial = "XXXXXXXXXXX";

// Let's convert only tables to XML and skip all textual data.
f.XmlOptions.ConvertNonTabularDataToSpreadsheet = false;
f.OpenPdf(pathToPdf);
if (f.PageCount > 0)
{
  int result = f.ToXml(pathToXml);
  //Show HTML document in browser
  if (result==0)
  {
    System.Diagnostics.Process.Start(pathToXml);
  }
}

2. Конвертирование PDF в XML на VB.NET:

Dim pathToPdf As String = @"c:\Table.pdf"
Dim pathToXml As String = Path.ChangeExtension(pathToPdf, ".xml")

' Convert PDF file to XML file.
Dim f As New SautinSoft.PdfFocus()
' This property is necessary only for registered version.
'f.Serial = "XXXXXXXXXXX";

' Let's convert only tables to XML and skip all textual data.
f.XmlOptions.ConvertNonTabularDataToSpreadsheet = False
f.OpenPdf(pathToPdf)
If f.PageCount > 0 Then
  Dim result As Integer = f.ToXml(pathToXml)
  'Show HTML document in browser
  If result = 0 Then
    System.Diagnostics.Process.Start(pathToXml)
  End If
End If

Больше примеров кода смотрите здесь.

Есть вопрос?

стоящий в позе задумчивости человечек у красного знака вопроса выше его роста
  • Если у вас есть вопросы,
  • нужна помощь
  • или пример кода,

обращайтесь в нашу службу поддержки по адресу: [email protected] или спросите в онлайн-чате (правый нижний угол этой страницы). Мы Вам обязательно поможем!

Другие функции SautinSoft.PdfFocus

PDF в DOCX PDF в RTF PDF в HTML PDF в Img PDF в Excel ✦ PDF в XML PDF в Text OCR
 ВВЕРХ