[python-chinese] 【请教】提取HTML中的TXT部分,有什么简单实用的方法吗?

Andelf andelf在gmail.com
星期四 四月 12 12:28:18 HKT 2007


在07-4-12,hutuworm <hutuworm at gmail.com> 写道:
>
> 把HTML标签如<.*>等滤掉就是文本了
> 然后再做一些处理


 不见得有这么简单,标准xhtml还好
还有转义一类的字符
dive into py好象有这方面的例子,要求不高的情况下HTMLParser.py完全够用
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://python.cn/pipermail/python-chinese/attachments/20070412/c8aa31ad/attachment.html 


关于邮件列表 python-chinese 的更多信息