谁能帮写一个匹配任意HTML标识符的正则表达式

本人想统计一HTML文件中的中文字数,可是其中有很多的HTML标识符,如class,div……谁能帮写一个匹配任意HTML标识符的正则表达式!!!不胜感谢!!!
如果一个表达式不行,可以写多个!!!

[\u4e00-\u9fa5]
直接匹配中文就可以了,不需要那么麻烦。

要是文中有英语怎么办?英文也算字数的啊?

有人告诉我:其实把<>里的去掉就行了,<.*?>
这样做对吗???