大数据
-
《Python爬虫大数据采集与挖掘》期末考试考题汇总带答案
《Python爬虫大数据采集与挖掘》期末考试考题汇总带答案一、填空题1、爬虫技术的应用可以分为两大类:采集型爬虫、监测型爬虫。2、根据Web页面组成结构中的信息内容的生成方式不同,可以将Web页面分为静态页面、动态页面、以及伪静态页面三大类。3、Robots协议为了给Web网站提供灵活的控制方式来决定页面是否能够被爬虫采集。4、在浏览器中打开网站后,在网站首页的地址后面添加“/robots.txt”,如果网站设置了访问许可,按回车就可以看到网站的robots协议,即robots.txt文件内容。5、Web信..
-
大数据时代下数据挖掘技术的应用[通俗易懂]
大数据时代下数据挖掘技术的应用[通俗易懂]原文链接:https://mp.weixin.qq.com/s/bxSEO4gKQ-BbDWT1BNnwyw随着社会信息化的迅速发展,无论是数据的变化速率,还是数据的新增种类都在不断更新,数据研究变得越来越复杂,这意味着“大数据时代”到来。2011年,互联网数据中心(internetdatacenter,IDC)将大数据重新定义为:在大数据原有的三维特征——数量、多样、速度基础上,增加了另…
-
万字详解,Hadoop大数据技术简介及 伪分布式集群搭建快速入门教程
万字详解,Hadoop大数据技术简介及 伪分布式集群搭建快速入门教程在大学时学习Hadoop大数据技术的时候,安装配置Hadoop框架,发现找的一些资料介绍得不够详细,比如一些路径的变化没有说清楚,这对于初学者来说是不够友好的,所以在这里做个详细总结介绍一下Hadoop框架,以及Ubuntu版本的Hadoop伪分布式的安装配置。
-
大数据ETL开发之图解Kettle工具(入门到精通)
大数据ETL开发之图解Kettle工具(入门到精通)0ETL简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等,作为一个大数据工程师,我们最好要掌握其中的两到三种,这里我们要学习的ETL工具是Kettle!1Kettle简介1.1Kettle是什么Kettle是一款国外开源的ETL工具,纯ja
-
大数据平台建设经验「建议收藏」
大数据平台建设经验「建议收藏」大数据平台建设技术背景Facebook的DREP原则!!思路建设流程经验教训生产案例饿了么大数据平台建设大数据平台逻辑架构图工具链架构图!!流入三个源数据流的UV计算渠道订单一个大数据平台省了20个IT人力——敦奴数据平台建设案例分享引跑科技副总裁张晓东:引跑DBone数据库助力大数据建设需求挖掘五步曲,快速建设大数据项目整合公司3个网站后台管理子系统的经验总结-实现多系统的单点登录(ASP.N
-
时间序列大数据平台建设经验谈
时间序列大数据平台建设经验谈版权声明:本文由本人撰写并发表于2018年1月刊的《程序员》杂志,本文版权归《程序员》杂志所有,未经许可不得转载。引言在大数据的生态系统里,时间序列数据(TimeSeriesData,简称TSD)是很常见也是所占比例最大的一类数据,几乎出现在科学和工程的各个领域,一些常见的时间序列数据有:描述服务器运行状况的Metrics数据、各种IoT系统的终端数据、脑电图、汇率、股价、气象和天
-
饿了么大数据平台建设
饿了么大数据平台建设随着接入的需求方越来越多样化,对大数据的数据使用、数据存储与计算的需求也越来越多样化,同时业务飞速发展,集群的规模也急速扩大。如何在这样的场景下通过大数据平台,稳定支撑住业务的发展是一个不小的挑战。本文分享主要平台工具链,技术、选型及架构设计上的一点经验。
-
大数据建模与数据模型工具[通俗易懂]
大数据建模与数据模型工具[通俗易懂]一、什么是大数据大数据一般指在数据量在10TB以上的数据集,通常有以下5个特点:1.容量(Volume):数据量大,数据量的大小决定所考虑的数据的价值和潜在的信息;2.种类(Variety):数据类型多,包括但不仅限于文本,音频,视频以及图片;3.速度(Velocity):指数据产生和获取的速度快;4.低价值密度(Value):数据中的有价值数据量级较小;5.真…
-
工业互联网大数据平台建设方案[通俗易懂]
工业互联网大数据平台建设方案[通俗易懂]工业互联网大数据平台建设方案
-
数据时代大数据管理,主要有哪些策略?「建议收藏」
数据时代大数据管理,主要有哪些策略?「建议收藏」1.对大数据时代的大数据管理框架进行创新在大数据时代的大数据管理形式不断发展过程中,给企业发展带来冲击非常巨大。因此,企业要根据我国信息技术不断发展的形式,对大数据管理框架进行全面的设计和创新,如图1所示。在大数据的处理的过程中,主要是围绕着数据资产进行管理的,同时对大数据时代的大数据管理制度,进行全面的规划行、设计、创新,这样对其它信息技术管理领域,提供了便利的条件。其实,大数据时代的大数据管…