Corsi on-line

Rimozione di HTML dalle stringhe, un confronto tra i linguaggi

La rimozione del codice HTML dalle stringhe è una procedura praticata non di rado nella costruzione di applicazioni Web based che prevedono di filtrare input provenienti da form; che i dati provengano da un modulo per il feedback, da una sistema per i commenti ai post di un blog o da un’interfaccia per il CRUD, il problema è sempre lo stesso: evitare che all’interno delle stringhe si annidi del codice malevolo.

In questo post voglio mostrarvi alcuni semplici metodi per l’eliminazione dei tag HTML da una stringa basati su altrettanti linguaggi differenti; questo è per esempio un filtro realizzato in JavaScript:

var html_stripped = html.replace(/(<.*?>)/ig,"");

Ecco invece la stessa funzionalità svolta da PHP tramite la funzione primitiva strip_tags(), chi conosce questo linguaggio sa che non si tratta dell’unico metodo possibile:

strip_tags($html);

Ecco invece un sistema analogo basato su C#:

public string Strip(string text)
 {
 return Regex.Replace(text, @”<(.|\n)*?>”, string.Empty);
 }

In Java potremo invece utilizzare questo metodo:

String html_stripped = html.replaceAll("\\<.*?\\>", "");

Questa invece una soluzione basata su Ruby:

puts str.gsub(/<\/?[^>]*>/, "")

L’elenco potrebbe allungarsi notevolmente, se ne conoscete altri aggiungeteli pure nei commenti.

Post correlati
I più letti del mese
Tematiche