发布时间:2019-09-09 08:51:11编辑:auto阅读(2455)
最近在用python处理网页数据时,经常遇到一些html转义字符(也叫html字符实体),例如<> 等。字符实体一般是为了表示网页中的预留字符,比如>用>表示,防止被浏览器认为是标签,具体参考w3school的HTML 字符实体。虽然很有用,但是它们会极度影响对于网页数据的解析。为了处理这些转义字符,有如下解决方案:
1、使用HTMLParser处理
import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"
转换回去(只是空格转不回去了):
上一篇:
Python缓存神奇库cacheout全
下一篇:
Google Protocol Buff
7/12/2025, 9:11:58 AM 星期六
- openvpn linux客户端使用
49366
- H3C基本命令大全
48558
- openvpn windows客户端使用
39256
- H3C IRF原理及 配置
36340
- Python exit()函数
30756
- openvpn mac客户端使用
27567
- python全系列官方中文文档
26563
- 1.常用turtle功能函数
21382
- python 获取网卡实时流量
21239
- python 获取Linux和Windows硬件信息
19585
- LLaMA Factory-Lora微调实现声控语音多轮问答对话-1
226°
- LLaMA Factory微调后的模型合并导出和部署-4
465°
- LLaMA Factory微调模型的各种参数怎么设置-3
450°
- LLaMA Factory构建高质量数据集-2
548°
- MinerU-linux环境本地部署
895°
- LLaMA Factory安装和基本使用-1
619°
- 使用ms-swift基于Qwen3-8B微调小说模型
1294°
- pythonp爬虫-fanqienovel字体反爬实战
1426°
- 大模型基础架构
1223°
- AI多模态- Janus-Pro-7B模型推理微调,融合实战2
1210°
- 姓名:Run
- 职业:谜
- 邮箱:383697894@qq.com
- 定位:上海 · 松江