python处理html中的转义字符

发布时间：2019-09-09 08:51:11编辑：auto阅读（2964）

最近在用python处理网页数据时，经常遇到一些html转义字符（也叫html字符实体），例如<> 等。字符实体一般是为了表示网页中的预留字符，比如>用>表示，防止被浏览器认为是标签，具体参考w3school的HTML 字符实体。虽然很有用，但是它们会极度影响对于网页数据的解析。为了处理这些转义字符，有如下解决方案：

1、使用HTMLParser处理

import HTMLParser

html_cont =  " asdfg>123<"

html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont  #new_cont = " asdfg>123<"

转换回去（只是空格转不回去了）：


                        
                        
                            
关键字：
                                                                
                                
                                
                            
                        

                
                            上一篇：
                                                                    Python缓存神奇库cacheout全                            
                            下一篇：
                                                                    Google Protocol Buff



        


    
    

    
    
    


    
    
        
             
            
                
                    
                        Run博客上线，欢迎访问
                        内容如有侵犯，请立即联系管理员删除
                        本站内容仅供学习和参阅，不做任何商业用途
                    
                
            
        
    

    
    
        
            标签云
        
        
            
                python3djangopython3爬虫python运维开发linuxpyspiderpython基础dockergitsvnpython练习requestsscrapy系统/运维python全栈人工智能bs4tkinterseleniumurllibphppythonrequests_htmlvue图像处理                
                
                
                
                
                
                
                
            
        
    

    



    
    
        
            搜索
        
        
            
                
                    
                        
                        
                    
                
            
        
    

    
    
        
            热门推荐
        
        
            
                 H3C基本命令大全
                                         53090 
                    

                    
                        
                            
                            
                        

                     H3C IRF原理及 配置                      40014 
                    

                    
                        
                            
                            
                        

                     Python exit()函数
                                         34395 
                    

                    
                        
                            
                            
                        

                     python全系列官方中文文档                     30145 
                    

                    
                        
                            
                            
                        

                     python 获取网卡实时流量
                                         25043 
                    

                    
                        
                            
                            
                        

                     1.常用turtle功能函数                     24844 
                    

                    
                        
                            
                            
                        

                     python 获取Linux和Windows硬件信息
                                         23219 
                    

                    
                        
                            
                            
                        

                     天天基金网数据接口                     16697 
                    

                    
                        
                            
                            
                        

                     Selenium使用代理IP&无头模式访问网站
                                         14853 
                    

                    
                        
                            
                            
                        

                     Selenium&Pytesseract模拟登录+验证码识别                     14348 
                    

                    
                        
                            
                            
                        

                    

            
        
    

    
    
        
            最新文章
        
        
            
                 LangGraph Studio可视化
                                         681° 
                    
                    
                        
                        
                     LangSmith开发-应用入门                     637° 
                    
                    
                        
                        
                     LangGraph开发-多轮对话问答机器人
                                         694° 
                    
                    
                        
                        
                     LangGraph开发-条件分支/循环图实战                     717° 
                    
                    
                        
                        
                     LangGraph开发-生态介绍，入门demo实战
                                         762° 
                    
                    
                        
                        
                     LangChain-接入12306-HTTP MCP智能体                     893° 
                    
                    
                        
                        
                     LangChain接入自定义爬虫-MCP工具
                                         856° 
                    
                    
                        
                        
                     LangChain接入Filesystem-MCP工具                     876° 
                    
                    
                        
                        
                     LangChain搭建MCP服务端和客户端流程
                                         972° 
                    
                    
                        
                        
                     LangGraph与MCP技术概述                     893° 
                    
                    
                        
                        
                                
        
    

    
    
        
            博主信息
        
        
            
                姓名：Run
                职业：谜
                邮箱：383697894@qq.com
                定位：上海 · 松江
            
        
    
    
    
        
            扫我打开
        
        
	    
        
    

    
    
        
            友情链接
        
        
            百度
            淘宝
            腾讯
            慕课网
            CSDN
            博客园
            51cto博客