大数据相关文章列表 - 全栈程序员必看

大数据（016）Hadoop-MR编程 — 【使用hadoop计算微博用户可能喜欢的关键词—-编程】

大数据（016）Hadoop-MR编程 — 【使用hadoop计算微博用户可能喜欢的关键词—-编程】一前言以微博为例每个用户会发很多微博其中包含了很多关键词信息而这些关键词就是用户可能感兴趣的事物我们需要用 HadoopMapper 计算出来折旧引出了文档加权算法其含义就是计算文档中某关键词的权重我们使用该权重来判断某用户对某关键词的依赖程度理想状况下权重越高用户越依赖于某关键词其算法如下图所示二源数据那么

全栈程序员-站长

2026年3月16日

3

大数据技术之数据存储

大数据技术之数据存储目前市场上有两种类型的大数据分析方式同步的和异步的两种都有各自在存储容量和特性上的要求近来大数据分析这个词正逐渐成为 IT 界流行的一个术语以代指有关大数据本身的猜想通俗说来即成堆数据背后问题的答案然而如果我们能够从足够的数据点入手比对及交叉分析或许能帮助我们找到一些有用的数据甚至可能帮助避免灾难问题是显而易见的所有的分析都需要大量甚至海量的数据这便给当今的 IT 管理人

全栈程序员-站长

2026年3月16日

2

元数据与数据治理｜大数据治理（第九篇）

元数据与数据治理｜大数据治理（第九篇）nbsp nbsp 魅族大数据平台的一个技术分享活动话题是大数据治理之路魅族大数据平台工作人员分享了一些他们的大数据治理经验很有内容首先他们整理了一个治理流程架构图然后依照架构图大致讲了架构图中的每个模块以及将模块串联起来的一个管理流程流程图如下然后依照架构图大致讲了架构图中的每个模块以及将模块串联起来的一个管理流程流程图如下 nbsp 流程图上面其中主数据管

全栈程序员-站长

2026年3月16日

2

大数据名词(1) -Shuffle

大数据名词(1) -Shuffleauthor 冶秀刚 mail Shuffle 过程是 MapReduce 的核心也被称为奇迹发生的地方要想理解 MapReduce Shuffle 是必须要了解的我看过很多相关的资料但每次看完都云里雾里的绕着很难理清大致的逻辑反而越搅越混前段时间在做 MapReducejob 性能调优的工作需要

全栈程序员-站长

2026年3月16日

3

大数据智能运维平台方案-1

大数据智能运维平台方案-11 1 功能详细介绍 1 1 1 登录界面用户首先需要获取 license 激活产品后才能正常使用提示如下点击激活会自动生成机器码请联系厂商获取激活码激活后会提示到期日产品可以正常进行登录了 1 1 2 首页首页是向导页以路线图的方式引导你进行集群配置和集群监控 1 2 配置管理 1 2 1 全局配置用于配置全局参数和服务包括数据保留配置告警服务告警配置和数据库配置等修改全局参数 1 2 2 数据库配置用于配置关系型数据库支持 Mysql 和 PostgreSQL 等

全栈程序员-站长

2026年3月16日

2

大数据架构详解

全栈程序员-站长

2026年3月16日

2

大数据面试求职经验总结

大数据面试求职经验总结计算机专业面试求职篇大数据岗为例包括面试经验分享简历制作经验及心得分享等写在前面空杯心态把握好校招机会它是你最容易通往大厂的机会

全栈程序员-站长

2026年3月16日

2

基于大数据的舆情分析_舆情与大数据

基于大数据的舆情分析_舆情与大数据数据工厂，是一套多组件化数据清洗加工及数据存储管理平台，同时能够管理所有的数据库的备份方案。支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压，对外提供压缩后的数据。

全栈程序员-站长

2026年2月2日

4

大数据舆情监测与分析_大数据分析系统架构

大数据舆情监测与分析_大数据分析系统架构前言互联网的飞速发展促进了很多新媒体的发展，不论是知名的大V，明星还是围观群众都可以通过手机在微博，朋友圈或者点评网站上发表状态，分享自己的所见所想，使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦，传播速度远超我们的想象。可以在短短数分钟内，有数万计转发，数百万的阅读。如此海量的信息可以得到爆炸式的传播，如何能够实时的把握民情并作出对应的处理对很多企业来说都是至关重要的。大数据时代，除了…

全栈程序员-站长

2026年1月31日

4

大数据开源舆情分析系统-数据采集技术架构浅析

大数据开源舆情分析系统-数据采集技术架构浅析舆情系统中数据采集是一个关键部分，此部分核心技术虽然由爬虫技术框架构建，但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定，特别是抓取大量网站的情况下，每天有大量网站的状态和样式发生变化以后，爬虫程序能快速的反应和维护。一旦分布式的爬虫规模大了以后会出现很多问题，都是种种技术挑战，会有很多门槛，例如：1.检测出你是爬虫，拉黑你IP(人家究竟是通过你的ua、行为特则还是别的检测出你是爬虫的?你怎么规避?)2人家给你返回脏数据，你怎么辨认?3对方被你爬死，你怎么设计调度规则?4要求你一天爬.

全栈程序员-站长

2026年1月28日

3