горизонтально расположенные полосы: белая, синяя, красная

Конвертирование HTML в Text

Если Вы ищете .NET-решение для извлечения текста из HTML-документа, Вы находитесь в правильном месте!

SautinSoft.HtmlToRtf предоставляет полный набор API для конвертирования HTML-документов в текст (TextANSI, TextUnicode).

Для иллюстрации давайте рассмотрим простой код на C#:

SautinSoft.HtmlToRtf h = new SautinSoft.HtmlToRtf();
string htmlString = "Hello World!";
string outputFile = @"c:\Test\result.txt";
if (h.OpenHtml(htmlString))
{
  bool ok = h.ToText(outputFile);
  // Open the result for demonstration purposes.
  if (ok)
    System.Diagnostics.Process.Start(new System.Diagnostics.ProcessStartInfo(outputFile) {
    UseShellExecute = true });
}

Несмотря на название компонента SautinSoft.HtmlToRtf, он может одновременно конвертировать и в текстовый формат, полностью поддерживая символы Юникода и ANSI-текст. Мы решили не менять название компонента.

Теперь Вы можете работать с классом HtmlToRtf, который предоставляет различные методы и свойства для преобразования HTML в Text:

скриншот всплывающего окна выбора класса конвентирования

Загрузка

DEMO-версия бесплатна.

Некоторые примеры преобразования HTML в Text на C# и VB.NET

1. Простое извлечение текста из HTML на C#:

SautinSoft.HtmlToRtf h = new SautinSoft.HtmlToRtf();
string htmlFile = @"d:\Resurrection.html";
string textFile = Path.ChangeExtension(htmlFile, ".txt");

h.OutputFormat = HtmlToRtf.eOutputFormat.TextUnicode;
h.ConvertFile(htmlFile, textFile);

2. Конвертирование HTML в текст в памяти с помощью C#:

SautinSoft.HtmlToRtf h = new SautinSoft.HtmlToRtf();
string htmlFile = @"d:\Resurrection.html";
string htmlString = File.ReadAllText(htmlFile);

// Начните конвертацию.
h.OutputFormat = HtmlToRtf.eOutputFormat.TextAnsi;
string textString = h.ConvertString(htmlString);

3. Извлечение текста из HTML в памяти с помощью VB.NET:

Dim h As New SautinSoft.HtmlToRtf()
Dim htmlFile As String = "d:\Resurrection.html"
Dim htmlString As String = File.ReadAllText(htmlFile)

' Начните конвертацию.
h.OutputFormat = HtmlToRtf.eOutputFormat.TextUnicode
Dim textString As String = h.ConvertString(htmlString)

Больше примеров кода смотрите здесь.

Есть вопрос?

стоящий в позе задумчивости человечек у красного знака вопроса выше его роста
  • Если у вас есть вопросы,
  • нужна помощь
  • или пример кода,

обращайтесь в нашу службу поддержки по адресу: [email protected] или спросите в онлайн-чате (правый нижний угол этой страницы). Мы Вам обязательно поможем!

Другие функции SautinSoft.HtmlToRtf

HTML →RTF HTML в DOCX ✦ HTML в Text Слияние/Замена RTF
 ВВЕРХ