利用chardet检测网页编码

环境:Win7_x64+python3.4.3需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/c

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

环境:Win7_x64 + python3.4.3

需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/chardet-2.3.0.tar.gz

安装:进入解压后的目录,在命令窗口执行: Python setup.py install

写个测试的python脚本吧(DetectURLCoding.py):

#coding:utf-8  
'''''python 3.x'''  
  
import sys  
import urllib.request  
import chardet  
  
# 将data写入文件fname  
def writeFile(fname, data):  
    f = open(fname, "wb")  
    if f:  
        f.write(data)  
        f.close()  
  
def blog_detect(blogurl):  
    '''''检测编码方式'''  
    try:  
        fp = urllib.request.urlopen(blogurl)  
    except Exception as e:  
        print(e)  
        print('download exception-[%s]' %blogurl)  
        return 0  
    blog = fp.read()    # python3.x read the html as html code bytearray  
    fp.close()  
    #writeFile("t.html", blog)  
      
    # get encoding string  
    codedetect = chardet.detect(blog)['encoding']  
    print('%s <- %s' %(blogurl, codedetect))  
    return 1  
  
if __name__=='__main__':  
    if len(sys.argv) == 1:  
        print('''''usage: 
            python DetectURLCoding.py http://xxx.com''')  
    else:  
        v = blog_detect(sys.argv[1])  
        print(v)  # 何问起 hovertree.com

运行结果:

D:\profile\Desktop>PYTHON de.py http://hovertree.com/  
http://hovertree.com/ <- utf-8  
1  
  
D:\profile\Desktop>PYTHON de.py http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml  
http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml <- utf-8  
1  

web前端:http://www.cnblogs.com/roucheng/p/texiao.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120432.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • FPGA之ODDR「建议收藏」

    通过oddr把两路单端的数据合并到一路上输出上下沿同时输出数据上沿输出a路下沿输出b路 如果两路输入信号一路恒定为1,一路恒定为0,那么输出的信号实际上就是输入的时钟信号ODDRPrimitive:Adedicatedoutputregistertotransmitdualdatarate(DDR)signalsfromV

    2022年4月7日
    150
  • linux安装wget命令_linux下载文件到本地命令

    linux安装wget命令_linux下载文件到本地命令1、检查是否有安装wgetrpm-qa|grep”wget”若存在则移除,以下为移除命令#移除wgetyumremovewget2、登录wget官网下载地址,下载最新的wget的rpm安装包到本地下载地址:http://mirrors.163.com/centos/7/os/x86_64/Packages/3、将下载的wget上传到服务器#/usr/local目录下手动创建一个wget将下载好的wget-1.14-18.el7_6.1.x86_64.rpm上传到此目录下

    2022年10月16日
    5
  • ubuntu ipsec配置_ubuntu安装iperf3

    ubuntu ipsec配置_ubuntu安装iperf3ipsetpackageinUbuntuipset:administrationtoolforkernelIPsetsipset-dbgsym:debugsymbolsforipsetlibipset-dev:developmentfilesforIPsetslibipset13:libraryforIPsetslibipset13-dbgs…

    2022年10月7日
    4
  • c++中constexpr_define和const定义常量的区别

    c++中constexpr_define和const定义常量的区别常量表达式是指值不会改变且在编译过程中就能够得到计算结果的表达式,能在编译时求值的表达式。例1:#include&lt;iostream&gt;usingnamespacestd;intmain(){ constinta1=10;//a1是常量表达式。 constinta2=a1+20;//a2是常量表达…

    2022年9月26日
    3
  • autocad二次开发资料总结

    autocad二次开发资料总结autocad二次开发AutoCAD(AutoComputerAidedDesign)是美国Autodesk公司研制开发的一款计算机辅助设计软件,它不是一款简单的绘图工具,而是一个复杂的计算机辅助设计系统。我们可以根据他灵活的开放性对其进行二次开发定制,让它更加适用于某一具体的设计领域。中文名AutoCAD二次开发外文名AutoCADDevelopmentSyst

    2025年8月14日
    3
  • 电力负荷预测三篇综述总结

    电力负荷预测三篇综述总结对前面三篇关于负荷预测的综述论文进行一个总结。

    2022年5月9日
    415

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号