利用chardet检测网页编码

环境:Win7_x64+python3.4.3需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/c

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

环境:Win7_x64 + python3.4.3

需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/chardet-2.3.0.tar.gz

安装:进入解压后的目录,在命令窗口执行: Python setup.py install

写个测试的python脚本吧(DetectURLCoding.py):

#coding:utf-8  
'''''python 3.x'''  
  
import sys  
import urllib.request  
import chardet  
  
# 将data写入文件fname  
def writeFile(fname, data):  
    f = open(fname, "wb")  
    if f:  
        f.write(data)  
        f.close()  
  
def blog_detect(blogurl):  
    '''''检测编码方式'''  
    try:  
        fp = urllib.request.urlopen(blogurl)  
    except Exception as e:  
        print(e)  
        print('download exception-[%s]' %blogurl)  
        return 0  
    blog = fp.read()    # python3.x read the html as html code bytearray  
    fp.close()  
    #writeFile("t.html", blog)  
      
    # get encoding string  
    codedetect = chardet.detect(blog)['encoding']  
    print('%s <- %s' %(blogurl, codedetect))  
    return 1  
  
if __name__=='__main__':  
    if len(sys.argv) == 1:  
        print('''''usage: 
            python DetectURLCoding.py http://xxx.com''')  
    else:  
        v = blog_detect(sys.argv[1])  
        print(v)  # 何问起 hovertree.com

运行结果:

D:\profile\Desktop>PYTHON de.py http://hovertree.com/  
http://hovertree.com/ <- utf-8  
1  
  
D:\profile\Desktop>PYTHON de.py http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml  
http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml <- utf-8  
1  

web前端:http://www.cnblogs.com/roucheng/p/texiao.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120432.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • web界面设计(一)「建议收藏」

    web界面设计(一)「建议收藏」Web界面设计一指引客户1.令人心动的第一映像发现页面布局不是你选择页面布局,而是它选择你引导客户的视线利用对角线原则使用色彩来吸引用户 重点使用反色或者深色表示凸显个性可以使用符号来统一设计风格logo2.导航之道告诉软件应该做什么 设计菜单不应该基于对象,还是基于任务(动宾词)链接生来不平等标签抬起头来看路二学习1开

    2022年6月18日
    34
  • 哈佛结构和普林斯顿结构的区别_普林斯顿大学和哈佛大学哪个更厉害

    哈佛结构和普林斯顿结构的区别_普林斯顿大学和哈佛大学哪个更厉害哈佛结构是一种将程序指令存储和数据存储分开的存储器结构。中央处理器首先到程序指令存储器中读取程序指令内容,解码后得到数据地址,再到相应的数据存储器中读取数据,并进行下一步的操作(通常是执行)。程序指令存储和数据存储分开,可以使指令和数据有不同的数据宽度,如Microchip公司的PIC16芯片的程序指令是14位宽度,而数据是8位宽度。      哈佛结构的微处理器通常具有较高的执行效

    2022年10月5日
    0
  • tikv性能参数调优[通俗易懂]

    tikv性能参数调优[通俗易懂]tiKV最底层使用的是RocksDB(tidb3.0版本中将使用tian存储引擎)做为持久化存储,所以TiKV的很多性能相关的参数都是与RocksDB相关的。TiKV使用了两个RocksDB实例,默认RocksDB实例存储KV数据,RaftRocksDB实例(简称RaftDB)存储Raft数据。TiKV使用了RocksDB的ColumnFamil…

    2022年9月23日
    0
  • 「mac版」支持flash的浏览器,谷歌浏览器Chrome、火狐浏览器Firefox

    「mac版」支持flash的浏览器,谷歌浏览器Chrome、火狐浏览器Firefox谷歌浏览器的苹果系统版V87,最后一版支持flash一共两个版本,一个英特尔的处理版,一个苹果M1处理器版。下载官网:https://www.google.cn/chrome/v87.0.4280.66英特尔处理器版网盘下载黑苹果的下载这个链接:https://pan.baidu.com/s/1ZvNw-qV-_s8mYn2RGDH5cw提取码:87vfhttps://loadream.lanzouo.com/ii4lfil6l7ihttps://cloud.189.cn/t/VFz

    2022年6月1日
    78
  • 后端框架有哪些?8个流行的后端框架推荐

    后端框架有哪些?8个流行的后端框架推荐后端框架有哪些?8个流行的后端框架推荐后端框架在选择要使用的后端框架时,有许多选项可用。虽然每个后端框架都有自己的优点和缺点,但在做出最终决定之前,还有一些其他因素需要考虑。在本指南中,我们将仔细研究经过尝试的框架,以确定哪个是最适合您的后端框架。后端vs前端如果您是Web开发世界的新手,后端和前端开发之间的区别可能不那么明显,但是,了解两者之间的区别很重要。以下是前端开发人员与后端开发人员的一些区别。前端开发:前端开发人员在很大程度上负责用户所看到的内容(即网站页面),前端开发人员主要使用HTM

    2022年6月10日
    545
  • c++ 常量表达式_c语言所有函数

    c++ 常量表达式_c语言所有函数constexpr修饰函数。普通函数/类成员函数。1.函数必须要有返回值,并且return返回的表达式必须是常量表达式。错误代码如下:#include<iostream>usingnamespacestd;//error不是常量表达式函数constexprvoidfunc1(){ inta=200; cout<<a<<endl;}//error不是常量表达式函数因为a是变量,不是常量constexprint

    2022年9月27日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号