python激活成功教程qq密码_央·python编程之QQ数据清洗

python激活成功教程qq密码_央·python编程之QQ数据清洗一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。今天我们拿QQ数据做示范。我们命令行是怎么看数据![Asm]纯文本查看复制代码morezy.txt#然后空格进行翻页效果如图:1.png(11.5KB,下载次数:0)2018-1-3017:54上传从数据中得知:—-中间4个-左边是账号,右边…

大家好,又见面了,我是你们的朋友全栈君。

一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。

今天我们拿QQ数据做示范。

我们命令行是怎么看数据!

[Asm] 纯文本查看 复制代码more zy.txt

#然后空格进行翻页

效果如图:

55fd2b2273b5a8b4531f72773c469d6e.gif

1.png (11.5 KB, 下载次数: 0)

2018-1-30 17:54 上传

从数据中得知:

—- 中间4个-

左边是账号,右边是密码

目前QQ最多就11位,密码最长16位,所以数据中位数最多31位(4+11+16),大于的都是垃圾(第一轮筛选)

我先用python 读取QQ操作

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

#savefilepath=”C:\Users\Administrator\Desktop\zy1.txt”

for line in mylist:

QQlist=line.split(‘—-‘)

print(QQlist[1])

55fd2b2273b5a8b4531f72773c469d6e.gif

2.png (19.57 KB, 下载次数: 1)

2018-1-30 17:55 上传

注:此方法是读取到内存,所以很占空间,会很卡。

数据中我们看到很多垃圾数据,我们看下垃圾数据

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

#savefilepath=”C:\Users\Administrator\Desktop\zy1.txt”

for line in mylist:

QQlist=line.split(‘—-‘)

if len(line)>31:

print(line)#打印垃圾数据

55fd2b2273b5a8b4531f72773c469d6e.gif

22.png (26 KB, 下载次数: 0)

2018-1-30 17:56 上传

进行QQ清洗,在分别保存账号文本和密码文本。

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

savegoodfilepath=r”C:\Users\Administrator\Desktop\zyQQGood.txt”

savebadfilepath=r”C:\Users\Administrator\Desktop\zyQQbad.txt”

filegood=open(savegoodfilepath,”wb”)

filebad=open(savebadfilepath,”wb”)

for line in mylist:

if len(line)>31 or len(line)<=15:#(4+5+6)

filebad.write(line.encode(“utf-8”))

else:

QQlist = line.split(‘—-‘)

if len(QQlist)==2:

filegood.write(line.encode(“utf-8”))

else:

filebad.write(line.encode(“utf-8”))

filebad.close()

filegood.close()

效果图:

55fd2b2273b5a8b4531f72773c469d6e.gif

44.png (38.09 KB, 下载次数: 0)

2018-1-30 17:57 上传

附件:

2b1bef8df4f01fee4fc8b39358cdcfb3.gif

中央纪委pyhon数据清理.zip

(3.81 KB, 下载次数: 25)

2018-1-30 17:58 上传

点击文件名下载附件

下载积分: 吾爱币 -1 CB

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/162202.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • sqoop从mysql导入hive parquet表timestamp,decimal转换问题

    sqoop从mysql导入hive parquet表timestamp,decimal转换问题

    2021年5月13日
    154
  • bat中使用mshta调用vbs语句获取精准计算的日期

    bat中使用mshta调用vbs语句获取精准计算的日期1.在bat中,获取指定的日期格式是比较麻烦的。因为cmd环境中,日期格式随着系统的时间格式设置而变化,通常系统默认的时间格式是“\’”符号作为连接符。日期通常用在文件名上,比如日志的文件名。那么日期的格式就只能用“-”符号代替,更改系统日期格式会显得容易被外界因素改变,导致不稳定。当然也可以用bat中的set来进行替换,但这样费代码量。2.对于计算日期来说,bat是难以准确做到的,也需要堆积代码量才能完成。特别是到了每个月的一号时,无法确定昨天是否是31号还是30号还是28号。那么bat就只能陷入迷茫

    2025年6月7日
    2
  • WinRAR去广告方法,了解一下?[通俗易懂]

    WinRAR去广告方法,了解一下?[通俗易懂]经常看到有些人电脑上安装的WinRAR中文版,打开压缩包的时候总是弹出广告,然后又习惯性的点了关闭;作为一名计算机专业的小白,我就忍不了了,找啊找~终于让我找到了去广告的方法233~~~需要用的工具:WinRAR中文版Restorator2007step1:下载安装winRAR,用WinRAR打开一个压缩包确认是否弹广告。(不弹广告就可以走了,没必要看哈哈;有广告接着往下看!…

    2022年6月9日
    42
  • 基础篇:Linux 常用命令总结「建议收藏」

    基础篇:Linux 常用命令总结「建议收藏」熬夜爆肝Linux集合,还不收藏?

    2022年5月28日
    38
  • pyspark 内容介绍(一)

    pyspark 内容介绍(一)

    2021年11月26日
    51
  • java406错误_Java项目部署遇到406错误[通俗易懂]

    1、406错误发生406错误的原因是服务器传递回来的值客户端无法解析。通过在谷歌浏览器的开发浏览器查看代码,发现RequestHeader的Accept格式为application/json格式,而服务器传回的报文中ResponseHeader的格式却为text/html,导致js解析不了数据,报406错误。因此,我们需要将服务器的数据先转换成json,再将其以application/json的C…

    2022年4月8日
    53

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号