大数据

  • 大数据 (016)Hadoop-MR编程 — 【使用hadoop计算微博用户可能喜欢的关键词—-编程】

    大数据 (016)Hadoop-MR编程 — 【使用hadoop计算微博用户可能喜欢的关键词—-编程】一 前言以微博为例 每个用户会发很多微博 其中包含了很多关键词信息 而这些关键词就是用户可能感兴趣的事物 我们需要用 HadoopMapper 计算出来 折旧引出了文档加权算法 其含义就是计算文档中某关键词的权重 我们使用该权重来判断某用户对某关键词的依赖程度 理想状况下 权重越高 用户越依赖于某关键词 其算法如下图所示 二 源数据那么

    2026年3月16日
    3
  • 大数据技术之数据存储

    大数据技术之数据存储目前市场上有两种类型的大数据分析方式同步的和异步的 两种都有各自在存储容量和特性上的要求 近来大数据分析这个词正逐渐成为 IT 界流行的一个术语 以代指有关大数据本身的猜想 通俗说来即成堆数据背后问题的答案 然而 如果我们能够从足够的数据点入手比对及交叉分析 或许能帮助我们找到一些有用的数据 甚至可能帮助避免灾难 问题是显而易见的 所有的分析都需要大量甚至海量的数据 这便给当今的 IT 管理人

    2026年3月16日
    2
  • 元数据与数据治理|大数据治理(第九篇)

    元数据与数据治理|大数据治理(第九篇)nbsp nbsp 魅族大数据平台的一个技术分享活动 话题是 大数据治理之路 魅族大数据平台工作人员分享了一些他们的大数据治理经验 很有内容 首先 他们整理了一个治理流程 架构图然后 依照架构图 大致讲了架构图中的每个模块 以及将模块串联起来的一个管理流程 流程图如下 然后 依照架构图 大致讲了架构图中的每个模块 以及将模块串联起来的一个管理流程 流程图如下 nbsp 流程图上面 其中 主数据管

    2026年3月16日
    2
  • 大数据名词(1) -Shuffle

    大数据名词(1) -Shuffleauthor 冶秀刚 mail Shuffle 过程是 MapReduce 的核心 也被称为奇迹发生的地方 要想理解 MapReduce Shuffle 是必须要了解的 我看过很多相关的资料 但每次看完都云里雾里的绕着 很难理清大致的逻辑 反而越搅越混 前段时间在做 MapReducejob 性能调优的工作 需要

    2026年3月16日
    3
  • 大数据智能运维平台方案-1

    大数据智能运维平台方案-11 1 功能详细介绍 1 1 1 登录界面用户首先需要获取 license 激活产品后才能正常使用 提示如下 点击激活 会自动生成机器码 请联系厂商获取激活码激活后 会提示到期日 产品可以正常进行登录了 1 1 2 首页首页是向导页 以路线图的方式引导你进行集群配置和集群监控 1 2 配置管理 1 2 1 全局配置用于配置全局参数和服务 包括数据保留配置 告警服务 告警配置和数据库配置等修改全局参数 1 2 2 数据库配置用于配置关系型数据库 支持 Mysql 和 PostgreSQL 等

    2026年3月16日
    2
  • 大数据架构详解

    大数据架构详解

    2026年3月16日
    2
  • 大数据面试求职经验总结

    大数据面试求职经验总结计算机专业面试求职篇 大数据岗为例 包括面试经验分享 简历制作 经验及心得分享等 写在前面 空杯心态 把握好校招机会 它是你最容易通往大厂的机会

    2026年3月16日
    2
  • 基于大数据的舆情分析_舆情与大数据

    基于大数据的舆情分析_舆情与大数据数据工厂,是一套多组件化数据清洗加工及数据存储管理平台,同时能够管理所有的数据库的备份方案。支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压,对外提供压缩后的数据。

    2026年2月2日
    4
  • 大数据舆情监测与分析_大数据分析系统架构

    大数据舆情监测与分析_大数据分析系统架构前言互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所想,使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦,传播速度远超我们的想象。可以在短短数分钟内,有数万计转发,数百万的阅读。如此海量的信息可以得到爆炸式的传播,如何能够实时的把握民情并作出对应的处理对很多企业来说都是至关重要的。大数据时代,除了…

    2026年1月31日
    4
  • 大数据开源舆情分析系统-数据采集技术架构浅析

    大数据开源舆情分析系统-数据采集技术架构浅析舆情系统中数据采集是一个关键部分,此部分核心技术虽然由爬虫技术框架构建,但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定,特别是抓取大量网站的情况下,每天有大量网站的状态和样式发生变化以后,爬虫程序能快速的反应和维护。一旦分布式的爬虫规模大了以后会出现很多问题,都是种种技术挑战,会有很多门槛,例如:1.检测出你是爬虫,拉黑你IP(人家究竟是通过你的ua、行为特则还是别的检测出你是爬虫的?你怎么规避?)2人家给你返回脏数据,你怎么辨认?3对方被你爬死,你怎么设计调度规则?4要求你一天爬.

    2026年1月28日
    3
关注全栈程序员社区公众号