基于大数据的舆情分析_舆情与大数据

基于大数据的舆情分析_舆情与大数据数据工厂,是一套多组件化数据清洗加工及数据存储管理平台,同时能够管理所有的数据库的备份方案。支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压,对外提供压缩后的数据。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

上一篇文章我们说到了:大数据开源舆情分析系统-数据采集技术架构浅析

今天跟大家来聊聊我们舆情系统中的数据处理部分是怎么样的工作机制。

简述

舆情系统的数据处理部分我们定义为:数据工厂。

数据工厂,是一套多组件化数据清洗加工及数据存储管理平台,同时能够管理所有的数据库的备份方案。

支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压,对外提供压缩后的数据。

主要用途分为三大块: 1.数据储存,2.数据标记,3.数据挖掘 。

经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。

开源技术栈

  • 开发框架:SpringBoot
  • 开发语言:Java JEE
  • 数据暂存:MySQL
  • 数据索引:Redis
  • 深度学习:PaddlePaddle
  • 数据流水线:Apache Flink
  • 自然语言处理:HaNLP & THUCTC
  • 数据处理和储存任务发送:Kafka&Zookeeper
  • 数据中台:自研 & DataEase

主体流程

  1. 选择需要处理的数据源,开启(或者关闭)数据处理开关,获取爬虫工厂抓取初加工的数据。

  2. 在配置界面上对数据处理流程自定义,并且可以看见处理列表和处理详情,以及当前总体的计算状态和计算负载统计。(整套技术方案可以自研,也可以使用为基础,初步评估flink可以满足我们大部分需求)

  3. 数据处理环节有6种类型:组合汇聚数据源、ETL 网页解析、自然语言处理、标签工场标记、自定义python java反射代码、对附件的处理。

  4. 每种数据源类型可定义输出不同的数据处理结果和存储目标。

  5. 对应每一种数据处理结果有每个不同的数据调用接口,接口都是根据数据字段自动生成。管理员用户可操作关闭数据调用开关。

  6. 用户可以查看每个数据处理结果的数据结果,可以通过筛选、搜索关键词对具体的数据内容查看。

备注:在项目初期应该用最简洁明了的方式对数据处理加工,等到对自身需求有一定深刻认识的时候,再对具体的数据工场的具体功能设计。进过对工商数据,对资讯数据,对招投标数据的输入、输出、处理、调用的各个环节后,会对数据工场具体需求有一个全面的认识。

技术架构

基于大数据的舆情分析_舆情与大数据

 (这是最早期系统架构图)

数据处理流程

基于大数据的舆情分析_舆情与大数据

数据总线

我们自研了一套数据总线系统API与Elasticsearch对接,将内部整套数据处理流程完成后,通过低代码化的API接口框架对输出。

数据存储

为了储存海量的数据,同时还能保证系统的性能和运行效率,我们将一条数据储存了多份,用储存空间换取查询时间。

  • MySQL

    在系统中储存两部分相关的信息内容,系统配置和临时脏数据储存。

  • redis

    在系统中除了作为系统缓存,还作为站点数据采集的index索引库。

  • kafak

    由于数据处理的过程比较多,而且数据量很大,因此采用分布式以及异步的方式对海量数据加工处理。

  • Elasticsearch

    储存加工好的数据、去掉样式的原文信息,以及打上各种标签的数据,储存在分布式搜索中,这样便于用户对数据的检索。

  • MongoDB

    带样式的文章正文原始网页储存在MongoDB中。

  • Clickhouse

    将每篇文章指纹及海明距离储存在clickhouse中,以便于对相似度和文章主题聚类的计算。

数据去重

  • URL去重

    采用了redis集群,让redis发挥天然的key/value魅力,把URL都存储在redis中。

  • 内容去重

    采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。

数据清洗

  • 自动提取字段,标题、正文、时间、作者、来源 等。
  • 采用自动分类技术对 软文、广告文、敏感文章分类,并且对抓取信源屏蔽。

数据标记

  • 内容简介

    我们自研了一套自然语言处理的API,我们对此也开放了出来,可以查阅。

  • 实体识别

    在HaNLP的基础上进行训练和二次开发,在实战的过程中收集数据样本以及对数据样本标注是最痛苦的事情,为此,我们还开发了一款可以辅助人工标记的工具。

  • 情感分析

    百度飞桨,我们使用了 PaddleHub 深度学习框架并且采用了 Senta模型 ,这个方案上手很简单,在百度飞桨官方网站上有详细内容,这里就不赘述了。

  • 高频词分词

    采用IK分词框架,在此基础上实现了高频词提取工具及API接口。

  • 文本分类

    由清华大学自然语言处理实验室推出的 THUCTC(THU Chinese Text Classification)

  • 相似文章

    将文章通过“海明距离”算法生成加密串码存储在clickhouse集群中,通过clickhouse距离查询方法实现,文章相似度聚类。

  • 事件分类

    自研算法,采用文本分类算法和高频词以及自己开发了一个管理后台。

  • 行业分类

    自研算法,采用文本分类算法和高频词以及自己开发了一个管理后台。

数据运维

  • 数据清理

    需要定期对 Elasticsearch、Mongodb 中存储的数据删除,同时还要将Mongodb中的表删除,否则磁盘空间容量不会减少。

  • 数据备份

    关键性数据采用实时数据备份方案,例如:ES集群和MySQL主从备份,另外,线上实时ES集群我们只保留最近2年的数据。

    非关键性数据采用离线数据备份方案,例如:采用datax+Linux脚本定时备份,上传到远程异地备份服务器。

开源舆情系统

项目地址:

https://gitee.com/stonedtx/yuqing

在线体验系统

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/191359.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • css怎么设置注释快捷键,html中注释的快捷键是

    css怎么设置注释快捷键,html中注释的快捷键是html中注释的快捷键是command或ctrl+/超文本标记语言(HyperTextMarkupLanguage),标准通用标记语言下的一个应用。HTML不是一种编程语言,而是一种标记语言(markuplanguage),是网页制作所必备的。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。超文本标记语言(或超文本标签语言)的结构包括“头”部分、和“主体”部分,其中“…

    2022年6月9日
    58
  • python+opencv图像模板匹配—多模板匹配

    python+opencv图像模板匹配—多模板匹配

    2021年10月6日
    37
  • serv-u搭建ftp服务器心得_U服务

    serv-u搭建ftp服务器心得_U服务1、先安装好Serv-U,并作为系统服务安装2、打开Serv-U,新建一个域3、添加用户4、解决阿里云专有网络的一个问题遇到一个情景:需要使用Serv-U进行FTP更新软件,其中使用PASV的连接方式,这种方式客户要求连接FTP的时候,Serv-U会随机产生一个端口发送给客户端,告诉客户端通过这个端口来发送文件;而阿里云专有网…

    2022年9月12日
    0
  • 5分钟快速了解MySQL索引的各种类型

    5分钟快速了解MySQL索引的各种类型之所以在索引在面试中经常被问到,就是因为:索引是数据库的良好性能表现的关键,也是对查询能优化最有效的手段。索引能够轻易地把查询性能提高几个数量级。

    2022年6月24日
    27
  • pycharm中安装django_pycharm环境配置教程

    pycharm中安装django_pycharm环境配置教程原文转载自:http://www.cnblogs.com/hwtmhj/p/6746151.html本人在安装Django的时候,试了很多安装教程均出错,选在这篇博文的的方法二(pycharm中利用其强大的类库进行安装)没有出错!近期做那个python的开发,今天就来简单的写一下开发路线的安装及配置,开发路线Python3.6.1+Pycharm5.0.6+Django1.11+

    2022年8月29日
    2
  • java jar包与war包_jar包和war包的区别,java jar包和war包部署的区别介绍「建议收藏」

    java jar包与war包_jar包和war包的区别,java jar包和war包部署的区别介绍「建议收藏」很多人都在想jar和war部署究竟哪个好呢?jar包和war包这两者之间的区别又是怎样的?有着什么不同?带着这些问题下面就一起来了解一下吧。1、jar包和war包概念介绍最首先的话,我们还是要来对jar包以及war包的概念进行一个简单的了解,首先是jar包。什么是jar包?jar包是类的归档文件,jar文件格式以流行的ZIP文件格式作为基础,和ZIP文件不一样的是,JAR文件不仅仅用来进行压缩和发…

    2022年5月24日
    35

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号