大数据

  • 大数据框架图

    大数据框架图

    2026年3月19日
    1
  • 大数据综述(Hadoop发展历史、大数据处理发展历史、大数据处理架构、数据湖技术等)

    大数据综述(Hadoop发展历史、大数据处理发展历史、大数据处理架构、数据湖技术等)文章目录 0 背景 1 相关公司 2Hadoop 各个版本历史 3 后续不断更新补充 0 背景做大数据开发有一段时间了 但是很多专业术语 概念 行业的发展情况都不是很清楚 本文的目的就是总结大数据的发展历程 让自己更清晰这个行业的发展潜力 以及值不值得继续留在这个行业 1 相关公司雅虎 最早开始做大数据的 谷歌 三篇论文 GoogleFileSy 2003 MapReduce 2004 BigTable 2006 开启了大数据时代 Uber 优步 美国科技公司 打车软件 开发了数据

    2026年3月19日
    3
  • 比 Hadoop 快至少 10 倍的物联网大数据平台,我把它开源了

    比 Hadoop 快至少 10 倍的物联网大数据平台,我把它开源了两天前 7 月 12 号 我对外正式宣布 TDengine 一款专为物联网定制打造的大数据平台软件 正式开源 将我和涛思数据团队两年多的时间写下的 10 多万行 C 语言代码放在 GitH

    2026年3月19日
    4
  • 大数据架构演变之路

    大数据架构演变之路一 JavaWeb 为什么需要大数据二 数据库 OLTP amp 数据仓库 OLAP 三 大数据架构演变 1 传统离线大数据架构 2 Lambda 架构 离线处理 实时链路 离线数仓 实时数仓 3 Kappa 架构四 架构选择五 实时数仓发展趋势六 实时数仓实践顺丰实时数仓架构

    2026年3月19日
    2
  • 在大数据中如何寻找相似的文档(shingle, minhash, LSH)(一)

    在大数据中如何寻找相似的文档(shingle, minhash, LSH)(一)场景 在一堆非常多的文档中 找到相似的文档 或者对文档间的相似性进行评估 当应用于此类目的的时候 我们最常用的用来表示一篇文档的方法是 shingling 1 k shingles nbsp nbsp nbsp 可以把一篇文档看成一个字符串 那么一篇文档的 k shingle 就是在这篇文档中出过现的任何长度为 k 的字符串 k shingles 就是改篇文档所有 k shingle 的集合 那么 k 的大小决定于什么

    2026年3月19日
    3
  • Spark大数据分析与实战:基于Spark MLlib 实现音乐推荐

    Spark大数据分析与实战:基于Spark MLlib 实现音乐推荐Spark 大数据分析与实战 基于 SparkMLlib 实现音乐推荐基于 SparkMLlib 实现音乐推荐一 实验背景 熟悉 Audioscrobbl 数据集基于该数据集选择合适的 MLlib 库算法进行数据处理进行音乐推荐 或用户推荐 二 实验目的 计算 AUC 评分最高的参数利用 AUC 评分最高的参数 给用户推荐艺术家对多个用户进行艺术家推荐利用 AUC 评分最高的参数 给艺术家推荐喜欢他的用户三 实验步骤 安装 Hadoop 和 Spark 启动 Hadoop 与 Spark 将文件上传到

    2026年3月19日
    2
  • 大数据治理平台建设方案

    大数据治理平台建设方案一 数据治理意义 作用和价值意义 是构建完善 共享 统一管理数据环境的基本保障和重要组成部分 是把数据作为资产来管理的有效手段作用 确定了一系列岗位角色和相应的责任及管理流程 保证了业务数据在采集 集中 转换 存储 应用整个过程中的完整性 准确性 一致性和时效性价值 企业进行数据治理的最大驱动力来自数据质量 通过提高数据质量实现更多的业务价值 将实现业务目标作为数据管理和服务的核心驱动力 优化数据架构 提升数据仓库 信息化管理系统建设 支持管理能力的

    2026年3月18日
    1
  • 大数据Hadoop(六):全网最详细的Hadoop集群搭建

    大数据Hadoop(六):全网最详细的Hadoop集群搭建目录 Hadoop 集群搭建集群简介集群部署方式 1 Standalonemo 独立模式 2 Pseudo Distributedm 伪分布式模式 3 Clustermode 群集模式 单节点模式 高可用 HA 模式集群环境准备 hadoop 重新编译为什么要编译 hadoopHadoop 编译实现 Hadoop 安装 Hadoop 安装包目录结构 Hadoop 配置文件修改数据目录创建和文件分发 配置 Hadoop 的环境变量

    2026年3月18日
    2
  • 大数据Kafka(四):kafka的shell命令使用

    大数据Kafka(四):kafka的shell命令使用全网最详细的大数据 Kafka 文章系列 强烈建议收藏加关注 新文章都已经列出历史文章目录 帮助大家回顾前面的知识重点 目录系列历史文章 Kafka 的 shell 命令使用一 创建 topic 二 生产消息到 kafka 三 从 kafka 中消费消息四 查看主题的命令五 运行 describe 的命令六 增加 topic 分区数七 删除 topic 八 使用 kafkaTools 操作 Kafka 系列历史文章 2021 年大数据 Kafka 四 kafka 的 shell 命令使用

    2026年3月18日
    3
  • 大数据技术综述

    大数据技术综述2019 独角兽企业重金招聘 Python 工程师标准 gt gt gt

    2026年3月18日
    2
关注全栈程序员社区公众号