python激活成功教程qq密码_央·python编程之QQ数据清洗

python激活成功教程qq密码_央·python编程之QQ数据清洗一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。今天我们拿QQ数据做示范。我们命令行是怎么看数据![Asm]纯文本查看复制代码morezy.txt#然后空格进行翻页效果如图:1.png(11.5KB,下载次数:0)2018-1-3017:54上传从数据中得知:—-中间4个-左边是账号,右边…

大家好,又见面了,我是你们的朋友全栈君。

一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。

今天我们拿QQ数据做示范。

我们命令行是怎么看数据!

[Asm] 纯文本查看 复制代码more zy.txt

#然后空格进行翻页

效果如图:

55fd2b2273b5a8b4531f72773c469d6e.gif

1.png (11.5 KB, 下载次数: 0)

2018-1-30 17:54 上传

从数据中得知:

—- 中间4个-

左边是账号,右边是密码

目前QQ最多就11位,密码最长16位,所以数据中位数最多31位(4+11+16),大于的都是垃圾(第一轮筛选)

我先用python 读取QQ操作

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

#savefilepath=”C:\Users\Administrator\Desktop\zy1.txt”

for line in mylist:

QQlist=line.split(‘—-‘)

print(QQlist[1])

55fd2b2273b5a8b4531f72773c469d6e.gif

2.png (19.57 KB, 下载次数: 1)

2018-1-30 17:55 上传

注:此方法是读取到内存,所以很占空间,会很卡。

数据中我们看到很多垃圾数据,我们看下垃圾数据

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

#savefilepath=”C:\Users\Administrator\Desktop\zy1.txt”

for line in mylist:

QQlist=line.split(‘—-‘)

if len(line)>31:

print(line)#打印垃圾数据

55fd2b2273b5a8b4531f72773c469d6e.gif

22.png (26 KB, 下载次数: 0)

2018-1-30 17:56 上传

进行QQ清洗,在分别保存账号文本和密码文本。

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

savegoodfilepath=r”C:\Users\Administrator\Desktop\zyQQGood.txt”

savebadfilepath=r”C:\Users\Administrator\Desktop\zyQQbad.txt”

filegood=open(savegoodfilepath,”wb”)

filebad=open(savebadfilepath,”wb”)

for line in mylist:

if len(line)>31 or len(line)<=15:#(4+5+6)

filebad.write(line.encode(“utf-8”))

else:

QQlist = line.split(‘—-‘)

if len(QQlist)==2:

filegood.write(line.encode(“utf-8”))

else:

filebad.write(line.encode(“utf-8”))

filebad.close()

filegood.close()

效果图:

55fd2b2273b5a8b4531f72773c469d6e.gif

44.png (38.09 KB, 下载次数: 0)

2018-1-30 17:57 上传

附件:

2b1bef8df4f01fee4fc8b39358cdcfb3.gif

中央纪委pyhon数据清理.zip

(3.81 KB, 下载次数: 25)

2018-1-30 17:58 上传

点击文件名下载附件

下载积分: 吾爱币 -1 CB

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/162202.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 网络信息安全——访问控制「建议收藏」

    网络信息安全——访问控制「建议收藏」**访问控制**访问控制是给出一套方法,将系统中的所有功能标识出来,组织起来,托管起来,将所有的数据组织起来标识出来托管起来,然后提供一个简单的唯一的接口,这个接口的一端是应用系统一端是权限引擎。权限引擎所回答的只是:谁是否对某资源具有实施某个动作(运动、计算)的权限。返回的结果只有:有、没有、权限引擎异常了。访问控制是几乎所有系统(包括计算机系统和非计算机系统)都需要用到的一种技术。访问控制是按用户身份及其所归属的某项定义组来限制用户对某些信息项的访问,或限制对某些控制功能的使用的一种技术。

    2022年7月23日
    7
  • pytest的assert_java单元测试断言

    pytest的assert_java单元测试断言前言断言是写自动化测试基本最重要的一步,一个用例没有断言,就失去了自动化测试的意义了。什么是断言呢?简单来讲就是实际结果和期望结果去对比,符合预期那就测试pass,不符合预期那就测试failed

    2022年7月30日
    3
  • python的dropna函数_Pandas dropna()函数不工作「建议收藏」

    python的dropna函数_Pandas dropna()函数不工作「建议收藏」我试图从pandas数据框中删除NA值。我使用了dropna()(它应该从数据帧中删除所有NA行)。然而,它不起作用。代码如下:importpandasaspdimportnumpyasnpprison_data=pd.read_csv(‘https://andrewshinsuke.me/docs/compas-scores-two-years.csv’)这就是获取数据帧的方法。…

    2022年9月2日
    4
  • 无问西东

    无问西东

    2021年9月27日
    44
  • 计算机硬件历史

    计算机硬件历史计算机硬件是人类处理运算与储存资料的重要元件,在能有效辅助数值运算之前,计算机硬件就已经具有不可或缺的重要性。最早,人类利用类似符木1的工具辅助记录,像是腓尼基人使用黏土记录牲口或谷物

    2022年3月29日
    42
  • 【Android音视频开发】【034】WEBRTC之ICE服务器搭建

    【Android音视频开发】【034】WEBRTC之ICE服务器搭建前篇由于ICE服务器是作为一个中转服务器来使用的,因此它必须搭建在外网,我是搭建在阿里云服务器上面的搭建ICE服务器需要一定的Linux经验和排错能力,没接触过Linux的量力而为切换到root用户sudosuroot安装opensslapt-getinstallopenssllibssl-devmake安装libevent2wgethttps://github.com/downloads/libevent/libevent/libevent-2.0.21-stable.tar

    2022年6月8日
    33

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号