python自动炒股软件下载_python自动股票交易软件

python自动炒股软件下载_python自动股票交易软件获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一。鉴于此,我拾起了Python这把利器,开启了网络爬虫之路。本篇使用的版本为python3.5,意在抓取证券之星上当天所有A股数据。程序主要分为三个部分:网页源码的获取、所需内容的提取、所得结果的整理。一、网页源码的获取很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。imp…

大家好,又见面了,我是你们的朋友全栈君。

获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一。鉴于此,我拾起了Python这把利器,开启了网络爬虫之路。

本篇使用的版本为python3.5,意在抓取证券之星上当天所有A股数据。程序主要分为三个部分:网页源码的获取、所需内容的提取、所得结果的整理。

一、网页源码的获取

很多人喜欢用python爬虫的原因之一就是它容易上手。只需以下几行代码既可抓取大部分网页的源码。

python自动炒股软件下载_python自动股票交易软件

import urllib.request

url=’ar.com/stock/ranklist_a_3_1_1.html’  #目标网址headers={“User-Agent”:”Mozilla/5.0 (Windows NT 10.0; WOW64)”}  #伪装浏览器请求报头request=urllib.request.Request(url=url,headers=headers)  #请求服务器response=urllib.request.urlopen(request)  #服务器应答content=response.read().decode(‘gbk’)   #以一定的编码方式查看源码print(content)  #打印页面源码

python自动炒股软件下载_python自动股票交易软件

虽说抓一页的源码容易,不过在一个网站内大量抓取网页源码却经常遭到服务器拦截,顿时感觉世界充满了恶意。于是我开始研习突破反爬虫限制的功法。

1.伪装流浪器报头

很多服务器通过浏览器发给它的报头来确认是否是人类用户,所以我们可以通过模仿浏览器的行为构造请求报头给服务器发送请求。服务器会识别其中的一些参数来识别你是否是人类用户,很多网站都会识别User-Agent这个参数,所以请求头最好带上。有一些警觉性比较高的网站可能还会通过其他参数识别,比如通过Accept-Language来辨别你是否是人类用户,一些有防盗链功能的网站还得带上referer这个参数等等。

2.随机生成UA

证券之星只需带User-Agent这个参数就可以抓取页面信息了,不过连续抓取几页就被服务器阻止了。于是我决定每次抓取数据时模拟不同的浏览器发送请求,而服务器通过User-Agent来识别不同浏览器,所以每次爬取页面可以通过随机生成不同的UA构造报头去请求服务器,

3.减慢爬取速度

虽然模拟了不同浏览器爬取数据,但发现有的时间段可以爬取上百页的数据,有时候却只能爬取十来页,看来服务器还会根据你的访问的频率来识别你是人类用户还是网络爬虫。所以我每抓取一页都让它随机休息几秒,加入此句代码后,每个时间段都能爬取大量股票数据了。

4.使用代理IP

天有不测风云,程序在公司时顺利测试成功,回寝室后发现又只能抓取几页就被服务器阻止了。惊慌失措的我赶紧询问度娘,获知服务器可以识别你的IP,并记录此IP访问的次数,可以使用高匿的代理IP,并在抓取的过程中不断的更换,让服务器无法找出谁是真凶。此功还未修成,欲知后事如何,请听下回分解。

5.其他突破反爬虫限制的方法

很多服务器在接受浏览器请求时会发送一个cookie文件给浏览器,然后通过cookie来跟踪你的访问过程,为了不让服务器识别出你是爬虫,建议最好带上cookie一起去爬取数据;如果遇上要模拟登陆的网站,为了不让自己的账号被拉黑,可以申请大量的账号,然后再爬入,此处涉及模拟登陆、验证码识别等知识,暂时不再深究…总之,对于网站主人来说,有些爬虫确实是令人讨厌的,所以会想出很多方法限制爬虫的进入,所以我们在强行进入之后也得注意些礼仪,别把人家的网站给拖垮了。

二、所需内容的提取

获取网页源码后,我们就可以从中提取我们所需要的数据了。从源码中获取所需信息的方法有很多,使用正则表达式就是比较经典的方法之一。我们先来看所采集网页源码的部分内容。

python自动炒股软件下载_python自动股票交易软件

python自动炒股软件下载_python自动股票交易软件

为了减少干扰,我先用正则表达式从整个页面源码中匹配出以上的主体部分,然后从主体部分中匹配出每只股票的信息。代码如下。

pattern=re.compile(‘

‘)

body=re.findall(pattern,str(content))  #匹配

之间的所有代码pattern=re.compile(‘>(.*?)

stock_page=re.findall(pattern,body[0])  #匹配>和

其中compile方法为编译匹配模式,findall方法用此匹配模式去匹配出所需信息,并以列表的方式返回。正则表达式的语法还挺多的,下面我只罗列所用到符号的含义。

语法    说明

.    匹配任意除换行符“\n”外的字符

*    匹配前一个字符0次或无限次

?    匹配前一个字符0次或一次

\s    空白字符:[\t\r\n\f\v]

\S    非空白字符:[^\s]

[…]    字符集,对应的位置可以是字符集中任意字符

(…)    被括起来的表达式将作为分组,里面一般为我们所需提取的内容

正则表达式的语法挺多的,也许有大牛只要一句正则表达式就可提取我想提取的内容。在提取股票主体部分代码时发现有人用xpath表达式提取显得更简洁一些,看来页面解析也有很长的一段路要走。

三、所得结果的整理

通过非贪婪模式(.*?)匹配>和

stock_last=stock_total[:] #stock_total:匹配出的股票数据for data in stock_total:  #stock_last:整理后的股票数据

if data==”:

stock_last.remove(”)

最后,我们可以打印几列数据看下效果,代码如下

print(‘代码’,’\t’,’简称’,’   ‘,’\t’,’最新价’,’\t’,’涨跌幅’,’\t’,’涨跌额’,’\t’,’5分钟涨幅’)for i in range(0,len(stock_last),13):        #网页总共有13列数据

print(stock_last[i],’\t’,stock_last[i+1],’ ‘,’\t’,stock_last[i+2],’  ‘,’\t’,stock_last[i+3],’  ‘,’\t’,stock_last[i+4],’  ‘,’\t’,stock_last[i+5])

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/151130.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 访问数据库使用redis作为mysql的缓存(redis和mysql结合)

    访问数据库使用redis作为mysql的缓存(redis和mysql结合)首先声明一下,我是在一个SSM项目的基础上进行优化的,所以就不进行基础的介绍了。下面我也补充一些知识点:redis:内存型数据库,有持久化功能,具备分布式特性,可靠性高,适用于对读写效率要求都很高,数据处理业务复杂和对安全性要求较高的系统(如新浪微博的计数和微博发布部分系统,对数据安全性、读写要求都很高)。缓存机制说明:所有的查询结果都放进了缓存,也就是把MySQL查询的结果放…

    2022年6月17日
    36
  • 51单片机控制步进电机-电路连接[通俗易懂]

    51单片机控制步进电机-电路连接[通俗易懂]51单片机控制步进电机-电路连接概要:本案例讲解的内容是51单片机控制步进电机硬件连接部分。后续会分别讲解单片机程序,S曲线加减速方法,上位机等相关内容硬件清单:1、51单片机控制板一个2、二相四线步进电机一个3、稳压电源一个4、TB6600步进电机驱动器一个整体连接图:原理图:功能部分说明:1、51单片机:①输出脉冲到TB6600驱动器PUL端口,从而控制步进电机转动②控制TB6600驱动器ENA端口,从而控制步进电机使能③控制TB6600驱动器DIR端口,从而控制步进电机

    2022年5月31日
    32
  • grep 正则表达式

    grep 正则表达式grep命令功能:输入文件的每一行中查找字符串。基本用法:grep[-acinv][–color=auto][-An][-Bn]'搜寻字符串'文件名参数说明:-

    2022年7月1日
    19
  • [数据结构]——单调栈「建议收藏」

    [数据结构]——单调栈「建议收藏」单调栈笔者在做leetcode的题(下一个出现的最大数字)时,接触到了单调栈这一种数据结构,经过研究之后,发现单调栈在解决某些问题时出奇的好用,下面是对单调栈的性质和一些典型题目。什么是单调栈?从名字上就听的出来,单调栈中存放的数据应该是有序的,所以单调栈也分为单调递增栈和单调递减栈单调递增栈:数据出栈的序列为单调递增序列单调递减栈:数据出栈的序列为单调递减序列ps:这里一定要注意…

    2022年9月23日
    4
  • jmeter并发测试教程_jmeter进行并发测试教程[通俗易懂]

    jmeter并发测试教程_jmeter进行并发测试教程[通俗易懂]jmeter是Apache组织开发的基于Java的压力测试工具,用于对软件做压力测试,很多用户使用的时候不知道jmeter怎么进行并发测试,接下来就跟小编一起来看看吧,有需要的小伙伴不要错过!jmeter怎么进行并发测试1、打开jmeter.bat文件,添加线程组,编辑线程数,这里设置100个线程数,循环2次,就是一台机器发送100*2=200个请求。2、点击线程组,右击添加→取样器→HTTP请求…

    2022年9月30日
    3
  • JAVA中的二维数组的定义及使用[通俗易懂]

    JAVA中的二维数组的定义及使用[通俗易懂]二维数组其实是一位数组的嵌套(每一行看做一个内层的一维数组) 两种初始化形式  格式1:动态初始化数据类型数组名[][]=new数据类型[m][n]数据类型[][] 数组名=new数据类型[m][n]数据类型[] 数组名[]=new数据类型[m][n]举例:int[][] arr=new int[5][3]; 也可以理解为“5行3例…

    2022年6月13日
    37

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号