Vaak is het nodig om de HTML-tags uit (stukken uit) een HTML pagina te halen. Bijvoorbeeld in situaties dat de content van de pagina moet worden onderzocht of geanaliseerd. Dit is heel eenvoudig te doen met reguliere expressies (Regex).

De volgende stappen zijn nodig:

  • Vervang de <br>-tags door [Enter]’s.
  • Decodeer de HTML-codes naar ascii, bijvoorbeeld &nbsp; naar een spatie
  • Verwijder alle HTML-tags (beginnend met < en eindigend met >)

De reguliere expressie om HTML tags te ‘vinden’ is de volgende:

<(.|\n)*?>

Hieronder geef ik een voorbeeld in C-sharp hoe deze reguliere expressie te gebruiken voor het verwijderen van HTML content.

public string StripHTML(string in_Content)
{
  string lv_HTML = in_Content;

  //Vervang <br>-tags door [enter]’s
  lv_HTML = Regex.Replace(lv_HTML, “<br>”, “\n”);

  //Decodeer alle HTML zodat bijvoorbeeld &lt; wordt veranderd naar <
  lv_HTML = HttpUtility.HtmlDecode(lv_HTML);

  //Vervang alle HTML tags door spaties
  lv_HTML = Regex.Replace(lv_HTML, “<(.|\n)*?>”, ” “);

  return lv_HTML;
}

Het resultaat van deze functie is een string zonder HTML opmaak