python取余什么意思_python中取余

python取余什么意思_python中取余首先取响应头里的编码,如果是几种中文编码之一,则认为中文网页,如果不是中文编码,也不是几种unicode方案之一,则不是中文.否则再在标签里找charset,如果有并且为几种中文编码之一,则是中文如果不是中文编码,也不是几种unicode方案之一,则不是中文.否则对body的内容(如果考虑性能问题,可以不对整个body,只对前N个字节)用正则洗标签过滤所有ASCII码字符,剩余部分…

大家好,又见面了,我是你们的朋友全栈君。

首先取响应头里的编码,如果是几种中文编码之一,则认为中文网页,如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则再在标签里找 charset ,如果有并且为几种中文编码之一, 则是中文如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则对body的内容(如果考虑性能问题,可以不对整个body,只对前N个字节)用正则洗标签过滤所有ASCII码字符, 剩余部分按字取内码,如果考虑性能问题其实取第一个字符就可以了,如果性能不重要,可以多采样几个(防止一个页面有中文日文等各种文字混合)判断采到的字符的内码是否位于中文unicode区域.如果性能非常不重要, 只是要代码简单, 那么做法可以: 正则 1 这样可以取到第一个不是ASCII的字符, 判断这个字符是否是中文字符就可以了参考代码:#! /usr/bin/env python

# -*- encoding: utf-8 -*-

import requests

import cld2

class Detector(object):

zh_cn_encodes = (‘gbk’, ‘gb2312’, ‘gb18030’)

def __init__(self, context):

self.context = context

def is_zh_cn_encoding(self, ctype):

ctype = ctype.lower()

for ec in self.zh_cn_encodes:

if ec in ctype:

return True

return False

def detect(self):

assert type(self.context) == type(u”), ‘detect unicode string only’

ret = cld2.detect(self.context.encode(‘utf-8’))

return ret[2][0][1] == ‘zh’

def url_detect(self):

r = requests.get(self.context)

assert r.status_code == 200, ‘http code 200 is required’

ctype = r.encoding

if ctype and self.is_zh_cn_encoding(ctype):

return True

else:

self.context = r.text

return self.detect()

if __name__ == ‘__main__’:

print Detector(u’短中文有bug’).detect()

print Detector(u’网页文件一般没问题’).detect()

print Detector(u’これは日本で’).detect()

url = ‘http://segmentfault.com/q/1010000000432652’

print Detector(url).url_detect()

url = ‘https://code.google.com/p/chromium-compact-language-detector/source/browse/README’

print Detector(url).url_detect()

x00-xff ↩

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/129873.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • c++容器类_类的容器

    c++容器类_类的容器什么是容器首先,我们必须理解一下什么是容器,在C++中容器被定义为:在数据存储上,有一种对象类型,它可以持有其它对象或指向其它对像的指针,这种对象类型就叫做容器。很简单,容器就是保存其它对象的对象,当然这是一个朴素的理解,这种“对象”还包含了一系列处理“其它对象”的方法,因为这些方法在程序的设计上会经常被用到,所以容器也体现了一个好处,就是“容器类是一种对特定代码重用问题的良好的解决方案”

    2025年11月7日
    3
  • vmware15最新激活码_通用破解码

    vmware15最新激活码_通用破解码,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月16日
    139
  • NET-> SplitContainer控件说明

    NET-> SplitContainer控件说明拆分器控件Splitcontainer,是一个含有Splitter拆分条的容器,它包含两个面板容器Panel1,Panel2,可以移动拆分条,对面板大小进行控制!控件学习示例程序!属性介绍;//拆分条的是否启用禁用boolIsSplitterFixed{get

    2022年7月18日
    18
  • 低噪声放大器

    常用于无线电接收机前端,其作用是提高接收机的灵敏度基本性能指标工作频率可以做到0.1~26.5GHz,超过8倍频程噪声系数噪声系数(F)描述信号通过低噪声放大器时的信噪比的变化,定义为输入信噪比(Si/Ni)和输出信噪比(So/No)之比所有器件都会附带热噪声,所有信号经过放大器后信噪比必然会恶化,所以F必然大于1,如果用分贝表示则为正数对于二级串联的放大…

    2022年4月9日
    39
  • oracle分页的方法,oracle分页[通俗易懂]

    oracle分页的方法,oracle分页[通俗易懂]Oracle的oracle分页oracle的分页一共有三种方式方法一根据rowid来分SELECT*FROMEMPWHEREROWIDIN(SELECTRIDFROM(SELECTROWNUMRN,RIDFROM(SELECTROWIDRID,EMPNOFROMEMPORDERBYEMPNODESC)WHEREROWNUM<=((curre…

    2022年5月8日
    217
  • yui2 datatable转换至yui3 (2)「建议收藏」

    yui2 datatable转换至yui3 (2)「建议收藏」接下来是第一个高峰,就是把原来的ajax实现,用yui3的io来写。而datatable当前使用的是connection。这里是需要重写的部分。(除非贪图简便,直接引入connection)

    2022年7月16日
    13

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号