大数据 - 技术教程文章

拉开大变革序幕(下):分布式计算框架与大数据【代码】【图】

由于对大数据处理的需求。使得我们不断扩展计算能力,集群计算的要求导致分布式计算框架的诞生。用便宜的集群计算资源在短短的时间内完毕以往数周甚至数月的执行等待,有人说谁掌握了庞大的数据。谁就主导了需求。尽管在十几年间,通过过去几十年的积淀,诞生了mapreduce。诞生了分布式文件系统。诞生了霸主级别的Spark,不知道这是不是分布式计算框架的终点,假设还有下一代的处理框架,必定来自更大规模的数据。我想那个量级已经...

我的首篇博客--致我们的大数据学员

经过了长时间的筹备后,十八掌教育的大数据培训课程终于和大家见面了。这里非常感谢大家对十八掌教育的认可,也是对我的认可。这里更要感谢51CTO的同志们的辛苦付出和推广宣传。 到目前为止,我们大数据课程已经讲了三天的java基础课程。从线上和线下的反馈来看,和我原来设想的情况差不多。想必很多线上的同学也能够体会真正学习起来的感受了吧! 如果大家看过了这几天的视频,就应该能够理解我的说法。大数据是高端且...

胖子哥的大数据之路(7)- 传统企业切入核心or外围

一、引言  昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨:  问题1:对于一个传统企业而言什么是核心业务,什么是外围业务?  问题2:大数据传统企业实施切入点到底是从核心开始还是该从外围介入?  两个问题有关联关系,如果界定不了核心与外围的边界,那么第二个问题也就无从回答。在此与大家共享,希望更多的人能参与进来发表自己的观...

SPARK大数据计算BUG处理:

大数据计算BUG处理:程序修改前资源情况:Driver : 1台Worker : 2台程序提交申请内存资源 : 1G内存内存分配情况 : 1. 20%用于程序运行2. 20%用于Shuffle3. 60%用于RDD缓存单条TweetBean大小 : 3k1. 内存溢出原因:因为程序会把所有的TweetBean查询出来并且合并(union),该操作在内存中进行。则某个campaign数据量较大时,如500W数据,则500W*10k=50G,超出内存限制。解决方法: 先按数据量切分task,避免单个task有很多数据造成...

amazon的新算法《大数据时代:亚马逊“预判发货”,顾客未动包裹先行》

核心理念:封装复杂性,server承担负责,user简单从最早的满29元免邮费开始,就将简约执行到底。虽说东方人习惯了复杂,但世界还是趋向简约的。反例:北京货仓VS武汉货仓;反例:广州运费0元,成都运费10元amazon角度1. amazon有自己的物流,因流量不稳定,若将此算法只加入到某流小流量的单次运输中,基本无成本。2. 算法复杂难免出错,但明显具有很强的竞争性和前途,可发展中壮大用户角度1. 用户体验提升,速度在网购的影响是巨...

Laxcus大数据管理系统2.0(8)- 第六章 网络通信【图】

第六章 网络通信  Laxcus大数据管理系统网络建立在TCP/IP网络之上,从2.0版本开始,同时支持IPv4和IPv6两种网络地址。网络通信是Laxcus体系里最基础和重要的一环,为了能够利用有限的网络资源,获得最大化的使用效率,我们根据大数据网络环境的特点,设计了一套专属网络通信协议,以及在此协议基础上实现的多套网络通信方案,它们共同组成了Laxcus集群的网络通信基础。本章将以TCP/IP协议为起点,介绍与网络通信有关的各个组成部...

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】 Q1:AppClient和worker、master之间的关系是什么?:AppClient是在StandAlone模式下SparkContext.runJob的时候在Client机器上应 用程序的代表,要完成程序的registerApplication等功能; 当程序完成注册后Master会通过Akka发送消息给客户端来启动Driver;在Driver中管理Task和控制Worker上的Executor来协同工作; Q2:Spark的shuffle 和hadoo...

大数据商业智能的十大戒律【图】

如今,各路企业和组织都不再使用上一代架构来存储大数据。既然如此,为什么还要使用上一代商业智能(BI)工具来进行大数据分析呢?在为企业选择 BI 工具时,应该遵守以下“十诫”。第一诫:不要转移大数据转移大数据代价高昂:毕竟,大数据很“大”,如果打包转移,负担太重。不要将数据提取出来,做成数据集市和数据立方,因为“提取”就意味着转移,会在维护、网络性能附加处理器方面造成纷乱庞杂的问题,出现两个逻辑上相同的备...

大数据笔记-基于mapreduce的并行算法【图】

7.1 mapreduce mapreduce编程: 同步工具: 实现时需要注意的地方: 本地聚合的重要性: 字数统计: map进化1:引入数组H(仍然需要combiner) map进化2:把数组H变为全局变量,map结束后再将H输出(in-mapper的实现)本地聚合的设计模式:将combiner的功能集成到mapper中(速度更快,in-mapper是内存上的操作->需要内存管理) 计算平均数:combiner的设计:example:map version1:(此时reducer不能代替combiner) version 2:(存在的问...

大数据量下高并发同步的讲解(不看,保证你后悔!)【代码】【图】

偶然的机会在网上看到了这篇blog,觉得作者写得挺不错的(虽然自己并没有怎么看懂。。。),所以就转来跟大家分享分享吧~~~对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了。而并发问题是绝大部分的程序员头疼的问题,但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧。 为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和...

PHP上传大文件和处理大数据【代码】

1. 上传大文件/* 以1.5M/秒的速度写入文件,防止一次过写入文件过大导致服务器出错(chy/20150327) */$is_large_file = false;if( strlen($xml_str)>=2097152 ){ //当文件大于2M$is_large_file = true;fwrite($fp, $pre, strlen($pre)); //写入头部$start = 0;while( $content=mb_strcut($xml_str,$start,1572864) ){$start = $start + 1572864;$writeResult = fwrite($fp, $content, strlen($content));if( !$writeResult ){unlink...

大数据实战(五十一):电商数仓(三十四)之系统业务数据仓库(七)数仓搭建(五)DWS层之用户行为宽表【代码】

1)为什么要建宽表需求目标,把每个用户单日的行为聚合起来组成一张多列宽表,以便之后关联用户维度信息后进行,不同角度的统计分析1 创建用户行为宽表 hive (gmall)> drop table if exists dws_user_action; create external table dws_user_action ( user_id string comment ‘用户 id‘,order_count bigint comment ‘下单次数 ‘,order_amount decimal(16,2) comment ‘下单金额 ‘,payment_cou...

大数据告诉你:程序员如何涨薪水

美国队长:这怎么知道?国防军官:这怎么不知道,21世纪就是本数码书。佐拉教会九头蛇怎么去读它,你的银行记录、病例、投票模式、电子邮件、通话信息、还有大学成绩单...左拉的算法会评估人们的过去,然后预测他们的未来。 ——《美国队长2》 听起来很玄乎,但事实是我们真的正在进入“大数据时代”,支付宝最新上线的“芝麻信用分”就是一个例子。芝麻分的背后是芝麻信用对海量信息数据的综合处理和评估,主要包含了用户信用历史...

大数据分布式集群搭建大全【代码】【图】

系统准备Centos6.5 Windows10相关软件包下载:链接:https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码:1tsf说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名 等同于 “master”如果如果看见配置文件为spark1,一定要修改成master ;有些图片是后面添加的才出现主机名不一致但并不影响理解.没有特别说明操作都是在 master 机器操作关闭防火墙关闭Linux和Windows的防火墙...

从菜鸟走向大数据高手

数据是用scala语言,和java有些不同又比java强大,省去了很多繁琐的东西,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可以有不抽象方法。scala中的方法中还可以定义方法,这在java中是从来没有的。大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向,中国在大数据方面才刚刚起步,但是在美国已经产生了上千亿的市场价值。举个例子,美国通用公司是一个生产飞机发动机...

大数据任务调度工具azkaban安装的相关文档【代码】【图】

区配置:1.查看时区 2 .修改时区3 安装mysql 下载MySQL数据脚本(如下有安装MySQL服务可以忽略) 下载然后解压;tar -zxvf azkaban-sql-script-2.5.0.tar.gz创建用户、分配权限并执行脚本 mysql –u root –pxxxx创建数据库: CREATE DATABASE azkaban;创建好数据库然后退出。然后将sql-script文件中的create-all-sql-2.5.0.sql中的数据表创建在刚创建好的azkaban 数据库当中。使用命令:mysql –u root –pxxxx -Dazkaban < /绝...

大数据时代,揭露个人数据泄漏和秘密跟踪内幕

网联网、社交网络技术的发展给人们的生活带了很多方便,例如网上聊天、网上购物、视频和社交等成了我们生活的新常态,据最新统计数据显示,我国网民总数已达7.1亿。但是,互联网在给我们生活带来便利的同时,也存在个人隐私和信息安全的风险,这就要求我们在享受便利生活的同时,提高网络安全和个人网络信息的保护意识。今天我们来聊聊这方面的话题,首先给大家介绍一下个人信息泄露的几个主要途径,有哪些种类的软件和公司正在肆意...

大数据认知

1、大数据组件Yarn:大数据组件运行的job的管理器Spark:分布式的利用内存进行分布式运算的大数据组件Hbase:基于Hadoop的大数据常用数据库Hive:基于Hadoop的大数据数据仓库,操作和关系型数据库(MySQL)类似2、hdfs文件系统中NameNode和DataNode的区别和联系NameNode存储了元数据,并且调度,协调整个集群DataNode主要用来存储数据3、HDFS上传文件的流程① 由客户端 向 NameNode节点节点 发出请求;②NameNode 向Client返回可以可...

WCF如何传输大数据

WCF可以帮助我们用来传输数据。但是有没有人遇到过需要大容量数据传输的需求呢?只要进行正确的设置就可以实现WCF传输大数据。在从客户端向WCF服务端传送较大数据(>65535B)的时候,发现程序直接从Reference的BeginInvoke跳到EndInvoke,没有进入服务端的Service实际逻辑中,怀疑是由于数据过大超出限定导致的。问题是我实际发送的数据是刚刚从WCF服务端接收过来的,一来一去,数据量差别并不大。然后发现,在客户端和服务端实际使...

宛如大片,你没见过的气象大数据可视化!【图】

早在17世纪80年代,英国科学家埃德蒙·哈雷凭借大量的数据绘制了世界上第一张载有海洋盛行风分布的气象图,以地图为依托,对信风的分布状况做了全球性的统计分析,并将分布状态生动的展现在世人面前,这也是有史可依的最早的气象数据可视化案例。 如今,气象数据可视化已经发展到了全新的时代。气象数据信息已经实现了以地图为载体的全面可视化展示,文字描述变成了辅助信息,图形可以一目了然的传达不同地理区划内各类气候历史资料...

自学it18大数据笔记-第二阶段Flume-day1——会持续更新……【图】

写在最前:转行大数据领域,没报班,自学试试,能坚持下来以后就好好做这行,不能就……!准备从现有这套it18的视屏残本开始……自学是痛苦的,发博客和大家分享下学习成果——也是监督自己,督促自己坚持学下去。(教学视屏是it18做活动送的,视屏不是很全,课堂笔记和源码等课堂相关资料也未放出,但徐培成老师课讲的真心很好,感兴趣的不妨听听,特此感谢it18掌——帮他们打打广告)笔记为自学时记录,如有错误,欢迎指正,不胜...

大数据与数据脱敏【图】

声明本专栏为我的个人技术专栏,所有观点均为个人观点。如欲转载,请注明出处。大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据的安全,但是这并不能完全从技术上...

【原创】大数据基础之Drill(1)简介、安装及使用【代码】【图】

https://drill.apache.org/ 一 简介Drill is an Apache open-source SQL query engine for Big Data exploration. Drill is designed from the ground up to support high-performance analysis on the semi-structured and rapidly evolving data coming from modern Big Data applications, while still providing the familiarity and ecosystem of ANSI SQL, the industry-standard query language. Drill provides plug-and-p...

Java软件开发者,如何学习大数据?

正常来讲学习大数据之前都要做到以下几点1.学习基础的编程语言(java,python)2.掌握入门编程基础(linux操作,数据库操作、git操作)3.学习大数据里面的各种框架(hadoop、hive、hbase、spark)这是正常学习大数据必须要做到的三个步骤,如果有了java基础再去学习基本上已经成功了一半,起码不用为了基础语言的学习而恼火了。真正的大数据的学习不能仅仅停留在理论的层面上,比如现在经常用到的spark框架目前支持两种语言的开发java...

不想34被裁退_好好学学大数据吧!【图】

某菊花厂要把34岁以上的员工都裁退,中年都没到就危机了,票子木有了,工作木有了,连最热爱的数据库都没机会玩了,还好,有一个快速上手玩转大数据的机会!一定要好好珍惜啊!阿里云有一款大数据产品,云HBase,其是基于 Hadoop 的一个分布式数据库,支持海量的PB级的大数据存储,适用于高吞吐的随机读写的场景,有Hadoop基础的程序员上手是极快地!再还有免费申请公测的机会,不花钱就能学会大数据,棒棒达。申请云数据库HBase免...

【原创】大数据基础之Hadoop(3)hdfs diskbalancer【代码】

hdfs单个节点内多个磁盘不均衡时(比如新加磁盘),需要手工进行diskbalancer操作,命令如下# hdfs diskbalancer -help plan usage: hdfs diskbalancer -plan <hostname> [options] Creates a plan that describes how much data should be moved between disks.--bandwidth <arg> Maximum disk bandwidth (MB/s) in integerto be consumed by diskBalancer. e.g. 10MB/s.--maxerror <arg> Describes how...

大数据技术hadoop入门理论系列之二—HDFS架构简介【图】

HDFS简单介绍HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。 与其他分布式文件系统显著不同的特点是:HDFS是一个高容错系统且能运行在各种低成本硬件上; 提供高吞吐量,适合于存储大数据集; HDFS提供流式数据访问机制。 HDFS起源于Apache Nutch,现在是Apache Hadoop项目的核心子项目。 HDFS设计假设和目标硬件错误是常态 在数据中心,硬件异常应被视作常态而非异常态。 在一个大数...

大数据技术暑期实习七___互联网营销精准决策(加载数据源)【代码】【图】

1. 进入Hadoop环境(在Hadoop安装目录下运行命令、若配置好ssh则可以直接运行启动命令)2. 启动hive进程(按照网上或林子雨的配置教程来就可以,不再赘述)   进入到shell3.加载数据到hive数据库(在项目实操中不建议查询语句为select *,而应根据列名查询,若只是查看表结构及数据效果,建议加limit,不然要机子要崩~~沙卡拉卡)hive> show tables; ##查看表 hive> desc formatted hive_table; ##描述表信息 desc hive_tab...

大数据Linux基本介绍

课时1 基本介绍1.Linux:开源、免费的操作系统。 特点:稳定性、安全性、处理多并发、 很多企业级的项目都会部署到Linux/unix系统上。2.常见的操作系统:(win7、LOS、Android、Mac)3.吉祥物:企鹅,Tux4.创始人:Linus Torvalds(林纳斯 git)5.主要发行版本Ubuntu(乌班图)、RedHat(红帽)、CentOS、Debain[蝶变]、Fedora、SuSE、OpenSUSE在Linux(内核)下不同的包装二次开发,形成了不同的版本。课时2 发展历程 1.著名实...

一种适合于大数据的并行坐标下降法【代码】【图】

在机器学习中,模型的训练是一个很重要的过程,它通常是对一个目标函数进行优化,从而获取模型的参数,比较常见的优化算法包括梯度下降法、牛顿法与拟牛顿法等。但在大数据的背景下,尤其对于并行实现来说,优化算法通常是越简单越好,如坐标下降法(CD)和随机梯度下降法(SCG)就比较受欢迎。 本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big Data 的一则笔记,主要介绍算法 Hydra (一种分...