【python量化】用python搭建一个股票舆情分析系统

【python量化】用python搭建一个股票舆情分析系统写在前面下面的这篇文章将手把手教大家搭建一个简单的股票舆情分析系统,其中将先通过金融界网站爬取指定股票在一段时间的新闻,然后通过百度情感分析接口,用于评估指定股票的正面和反面新闻的占比,以…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

【python量化】用python搭建一个股票舆情分析系统

写在前面

下面的这篇文章将手把手教大家搭建一个简单的股票舆情分析系统,其中将先通过金融界网站爬取指定股票在一段时间的新闻,然后通过百度情感分析接口,用于评估指定股票的正面和反面新闻的占比,以此确定该股票是处于利好还是利空的状态。

1

环境准备

本地环境:

Python 3.7
IDE:Pycharm

库版本:

re 2.2.1
lxml 4.6.3
requests 2.24.0
aip 4.15.5
matplotlib 3.2.1

其中用到了百度的ai接口,通过pip安装的方式如下:

pip install baidu-aip

然后,导入需要用到的所有库:

import requests
import matplotlib.pyplot as plt
import pandas as pd
from lxml import etree
from aip import AipNlp

2

代码实现

1、获取新闻数据

首先,我们需要通过金融界(http://stock.jrj.com.cn/share)的网站爬取股票的新闻信息。获取指定股票的新闻资讯的接口形式是:

http://stock.jrj.com.cn/share,股票代码,ggxw.shtml
如:http://stock.jrj.com.cn/share,600381,ggxw.shtml

如600381股票的新闻资讯如下图所示:

【python量化】用python搭建一个股票舆情分析系统

需要注意的是,当获取后面几页的新闻时,其接口需要加一个后缀,形式如下:

http://stock.jrj.com.cn/share,600381,ggxw_page.shtml
如获取第二页,http://stock.jrj.com.cn/share,600381,ggxw_2.shtml

首先,我们定义一个函数,传入一个股票代码的列表,表示用于下载到本地的股票新闻的代码。然后将每个股票的代码拼接到api中,然后调用parse_pages()函数用于爬取该api下网页中的数据。

# 下载指定的股票的新闻数据
def download_news(codes):
    for code in codes:
        print(code)
        url = "http://stock.jrj.com.cn/share," + str(code) + ",ggxw.shtml"
        parse_pages(url, code)

接下来,我们实现上面的parse_pages()函数。其中需要先获取每一页新闻数据的总的页数,然后针对每一页拼接对应的api接口,最后再对每一页的新闻数据进行下载。

# 解析每个页面的数据
def parse_pages(url, code):
    max_page = get_max_page(url)
    for i in range(1, max_page + 1):
        if i != 1:
            url = "http://stock.jrj.com.cn/share," + str(code) + ",ggxw_" + str(i) + ".shtml"
        download_page(url, code)

获取最大页数的函数如下,其中用到了lxml下的etree模块来解析html代码,然后通过正则表达式获取最大页数。

# 获取url下的最大page数
def get_max_page(url):
    page_data = requests.get(url).content.decode("gbk")
    data_tree = etree.HTML(page_data)
    if page_data.find("page_newslib"):
        max_page = data_tree.xpath("//*[@class=\"page_newslib\"]//a[last()-1]/text()")
        return int(max_page[0])
    else:
        return 1

接下来实现download_page()函数,它的作用通过正则表达式匹配页面中的新闻标题,并将获取的标题数据保存到本地文件中。

# 解析指定页面的数据并保存至本地
def download_page(url, code):
    try:
        page_data = requests.get(url).content.decode("gbk")
        data_tree = etree.HTML(page_data)
        titles = data_tree.xpath("//*[@class = \"newlist\"]//li/span/a/text()")
        for title in titles:
            title = title + "\r\n"
            with open(str(code) + ".txt", "a") as file:
                file.write(title)
                file.flush()
        return
    except:
        print("服务器超时")

接下来,通过调用上面的download_news()函数,并传入需要爬取新闻的股票代码列表,就可以将新闻数据爬取到本地了。

codes = [600381, 600284, 600570, 600519, 600258, 601179]
download_news(codes)

得到的新闻数据形式如下图所示:

【python量化】用python搭建一个股票舆情分析系统

2、新闻情绪分析以及统计

在获取了股票的新闻数据之后,我们接下来需要对每支股票的所有新闻进行情感分析了。其中用到了百度人工智能接口aip下的aipNLP用于对所有新闻数据进行自然语言处理,并进行情感分析。需要注意的是,在通过百度人工智能接口进行情感分析之前需要先注册并获取APP_ID、API_KEY以及SECRET_KEY。获取的方式如下:

首先,登录并注册百度人工智能平台(https://ai.baidu.com/):

【python量化】用python搭建一个股票舆情分析系统

然后,在自己的控制台中找到自然语言处理,并创建应用,如下图所示:

【python量化】用python搭建一个股票舆情分析系统

创建完成之后就可以得到自己的APP_ID、API_KEY以及SECRET_KEY,如下图所示:

【python量化】用python搭建一个股票舆情分析系统

接下来通过一个函数来实现对指定的股票进行情感分析并保存到本地:

# 对指定的股票进行情感分析并保存到本地
def analyze_stocks(codes):
    df = pd.DataFrame()
    for code in codes:
        print(code)
        stock_dict = analyze(code)
        df = df.append(stock_dict, ignore_index=True)
    df.to_csv('./stocks.csv')

其中的analyze()函数实现如下,其中需要将前面申请的APP_ID、API_KEY以及SECRET_KEY进行定义。之后读取包含每个股票的所有新闻的文件,其中每一行表示一个新闻标题。然后通过aipNLP对每个标题进行情感分析,进而基于得到的分析结果来统计积极新闻和消极新闻的个数,最后将针对每支股票的分析结果返回:

# 对指定股票的所有新闻数据进行情感分析并进行统计
def analyze(code):
    APP_ID = 'your app id'
    API_KEY = 'your api key'
    SECRET_KEY = 'your secret key'
    positive_nums = 0
    nagative_nums = 0
    count = 0
    aipNlp = AipNlp(APP_ID, API_KEY, SECRET_KEY)
    lines = open(str(code) + '.txt').readlines()
    for line in lines:
        if not line.isspace():
            line = line.strip()
            try:
                result = aipNlp.sentimentClassify(line)
                positive_prob = result['items'][0]['positive_prob']
                nagative_prob = result['items'][0]['negative_prob']
                count += 1
                if positive_prob >= nagative_prob:
                    positive_nums += 1
                else:
                    nagative_nums += 1
            except:
                pass
    avg_positive = positive_nums / count
    avg_nagative = nagative_nums / count
    print('股票代码:',code, '消极比例:', avg_nagative, '积极比例:',avg_positive)
    return {'股票代码':code, '消极比例':avg_nagative, '积极比例':avg_positive}

调用下面的代码进行分析,并生成统计结果:

codes = [600381, 600284, 600570, 600519, 600258, 601179]
analyze_stocks(codes)

3、数据可视化

最后我们将得到的结果进行可视化,可以直观地看到每支股票的消极新闻和积极新闻所占的比例。

def show():
    matplotlib.rcParams['font.sans-serif'] = ['SimHei']
    matplotlib.rcParams['axes.unicode_minus'] = False
    df = pd.read_csv('./stocks.csv', index_col='股票代码', usecols=['股票代码', '消极比例','积极比例'])
    df.plot(kind='barh', figsize=(10, 8))
    plt.show()

效果图如下所示:

【python量化】用python搭建一个股票舆情分析系统

3

总结

在这篇文章中,我们介绍了如何基于python搭建一个简单的股票舆情分析系统,其中将先通过金融界网站爬取指定股票在一段时间的新闻,然后通过百度情感分析接口对新闻进行情感分析,最后统计股票的正面和反面新闻的占比,以此确定该股票是处于利好还是利空的状态。基于此系统,大家可以进行进一步的进行扩展以应用。

完整代码请在《人工智能量化实验室》公众号后台回复“080”关键字。本文内容仅仅是技术探讨和学习,并不构成任何投资建议。

【python量化】用python搭建一个股票舆情分析系统

【python量化】用python搭建一个股票舆情分析系统

了解更多人工智能与
量化金融知识

<-请扫码关注

让我知道你在看

【python量化】用python搭建一个股票舆情分析系统

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/191304.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 最新VS2012激活成功教程 序列号,vs2012旗舰版密钥序列号【收藏】「建议收藏」

    最新VS2012激活成功教程 序列号,vs2012旗舰版密钥序列号【收藏】「建议收藏」对于开发者而言,一款优秀智能的开发工具能够提升应用开发的效率,正因为如此,VisualStudio作为主流的开发工具,微软非常的用心,不仅能够让这款开发工具满足用户体验的需要,同时能够支持更多的新技术架构,并且,VS2012更加适合用于开发Windows8专用程序。网上好多无效的,为了收藏,先保存一份。一、VS2012下载地址。中文版:http://download….

    2022年7月20日
    24
  • 数据流图DFD画法「建议收藏」

    数据流图DFD画法「建议收藏」数据流图(DFD-DataFlowDiagram)让系统分析者弄清楚“做什么”的问题,其重要性就不言而喻了。那么我们怎么画数据流图呢?数据流图与系统流程图又有什么区别呢?步骤1数据流图里包含的内容数据流图描述的是系统的逻辑模型,图中没有任何具体的物理元素,只是描绘信息在系统中流动和处理的情况。因为数据流图是逻辑系统的图形表示,即使不是专业的计算机技术人员

    2022年6月21日
    41
  • 数据库课程设计(学校运动会管理系统)[通俗易懂]

    数据库课程设计(学校运动会管理系统)[通俗易懂]这学期学习了数据库之后,到结尾写个数据库课程设计,下面这个课程设计可是我花了好长时间才写完,先供大家参考目录1需求分析…………………………………………………………4      1.1功能性需求分析……………………………………………4      1.2性能分析……………………………………………………4      1.

    2022年5月19日
    51
  • 1.23 lseek函数[通俗易懂]

    1.23 lseek函数[通俗易懂]参考:牛客网C++高薪求职项目《Linux高并发服务器开发》1.22read、write函数专属优惠链接:https://www.nowcoder.com/courses/cover/live/504?coupon=AvTPnSG

    2022年6月24日
    25
  • 8位双向移位寄存器verilog设计

    8位双向移位寄存器verilog设计系统功能设计一个8位双向移位寄存器,实现并行输入数据、数据左移、右移、清空数据的功能。程序主要包括移位寄存器模块和按键去抖模块①Key1控制拨码输入:a)key_flag1,key_state1实现Key1去抖(if(key_flag1&&(!key_state1)));b)key_cnt[3:0]从0开始在每一次Key1按下后加1,累积到3后再按下Key1,key_cnt清零;c)en_num1为高4位输入使能信号,en_num2为低4位输入使能信

    2022年7月16日
    15
  • ETL的开发过程[通俗易懂]

    ETL的开发过程[通俗易懂]在生产环境中,使用shell脚本完成一次etl操作1.定义一个etl函数,里面传入json行数据,用json.loads加载行数据,并对行数据进行判断,如果没有行数据,或data字段没有在行数据里,就直接返回空的结果,否则就继续往下执行2.接着获取行里的数据,用for循环判断,如果包含某个值,我就将变量赋值取出,装在集合容器里3.设置sparksession会话,并ena…

    2022年5月23日
    34

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号