利用chardet检测网页编码

环境:Win7_x64+python3.4.3需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/c

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

环境:Win7_x64 + python3.4.3

需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/chardet-2.3.0.tar.gz

安装:进入解压后的目录,在命令窗口执行: Python setup.py install

写个测试的python脚本吧(DetectURLCoding.py):

#coding:utf-8  
'''''python 3.x'''  
  
import sys  
import urllib.request  
import chardet  
  
# 将data写入文件fname  
def writeFile(fname, data):  
    f = open(fname, "wb")  
    if f:  
        f.write(data)  
        f.close()  
  
def blog_detect(blogurl):  
    '''''检测编码方式'''  
    try:  
        fp = urllib.request.urlopen(blogurl)  
    except Exception as e:  
        print(e)  
        print('download exception-[%s]' %blogurl)  
        return 0  
    blog = fp.read()    # python3.x read the html as html code bytearray  
    fp.close()  
    #writeFile("t.html", blog)  
      
    # get encoding string  
    codedetect = chardet.detect(blog)['encoding']  
    print('%s <- %s' %(blogurl, codedetect))  
    return 1  
  
if __name__=='__main__':  
    if len(sys.argv) == 1:  
        print('''''usage: 
            python DetectURLCoding.py http://xxx.com''')  
    else:  
        v = blog_detect(sys.argv[1])  
        print(v)  # 何问起 hovertree.com

运行结果:

D:\profile\Desktop>PYTHON de.py http://hovertree.com/  
http://hovertree.com/ <- utf-8  
1  
  
D:\profile\Desktop>PYTHON de.py http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml  
http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml <- utf-8  
1  

web前端:http://www.cnblogs.com/roucheng/p/texiao.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120432.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Mybatis 模糊查询

    Mybatis 模糊查询第一种:(推荐)select*fromuserwhereusernamelike#{abc}执行保存操作List<User>users=dao.findUserByName(“保”);日志:==>Preparing:select*fromuserwhereusernamelike’%保%’;==>Parameters:DEBUGma.dao.IUserDao.findUserByName第二种:select

    2025年8月3日
    2
  • springboot启动成功访问404_springboot启动执行

    springboot启动成功访问404_springboot启动执行今天在做一个springboot项目的时候,是接着别人的项目写的,写完之后想做一下测试,于是就启动了springboot,然后在放问的时候,一直包404的错误,然后百度了一下网上给的方法,包括注解使用@RestController,然后去除掉方法@RequestMapping(value="/add")中的“value=”,这个方法对我无用,因为我的项目之前就是用的@RestC…

    2022年10月13日
    3
  • idea热部署且开启自动编译「建议收藏」

    idea热部署且开启自动编译「建议收藏」最近调试代码需要起服务并修改代码这就导致重复工作,目前是修改服务器配置,即当idea失去焦点时更新类和资源,但是这种只支持在debug模式且是在idea失去焦点才会触发热部署,这就相对加载的慢了。此法的配置方法:Run–&gt;EditConfigguration如果你sever选项卡下没有Onframedeactivation,那么就需要配置Deployment选项…

    2022年6月12日
    116
  • c语言入门教程–16字符串常见操作

    c语言入门教程–16字符串常见操作

    2021年3月12日
    149
  • Python学习(一)-环境搭建之PyCharm专业版激活成功教程

    Python学习(一)-环境搭建之PyCharm专业版激活成功教程PyCharm专业版激活成功教程1、下载地址:https://www.jetbrains.com/pycharm/download/#section=windows2、直接运行下载好的3、选择安装路径:E:\Pycharm\PyCharm2018.2.44、根据电脑配置打钩5、Install安装,安装后不打开软件6、将C:\Windows\System32\dri…

    2022年8月27日
    4
  • I2C电平转换电路_i2c电平转换芯片

    I2C电平转换电路_i2c电平转换芯片电平转换电路左侧位从机器件,后侧为单片机(主器件)完整的应用电路图电路图特此记录anlog2021年11月11日

    2022年8月10日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号