更多【陈磊-大数据风控：拍拍信的AI视角】教程文章相关的互联网学习教程文章

【陈磊-大数据风控：拍拍信的AI视角】教程文章相关的互联网学习教程文章

大数据性能调优之HBase的RowKey设计

Hbase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：通过get方式，指定rowkey获取唯一一条记录通过scan方式，设置startRow和stopRow参数进行范围匹配全表扫描，即直接扫描整张表中所有行记录（较新的hbase还可以通过column和values 进行索引，但是不走...

大数据应用技术课程实践--选题与实践方案【图】

一、选题与意义1.Hadoop平台应用2.Kaggle分析数据项目简要说明理由与意义。二、实践方案三、实践任务分解根据所选的题目，明确实验步骤，分解任务到每天。四、实践计划按任务分解撰写计划表，每天按计划表开展工作。第天根据实际情况更新计划表，有必要时调整。 1、选题：淘宝双11数据分析与预测我选Hadoop平台应用-淘宝双11数据分析与预测因为自己机器学习的基础不是很牢固，所以不敢贸然选第二题，再加上从没接触过kaggle，时间...

基于python的大数据分析基本知识【代码】

1. 数据科学领域中常用的python库Numpy库：数据运算的基础库，运行效率高(底层C语言，高效index)Scipy库：实现了常用的科学计算方法(线性代数，傅里叶变换，信号和图像处理)Pandas库：分析数据的利器，高级数据结构(Series，DataFrame)Matplotlib库：绘图功能(散点，曲线，柱形)2. Anaconda的使用说明介绍：著名的python数据科学平台，开源，跨平台。包含有流行的python和R的包。下载地址：https://www.anaconda.com/download/Jupy...

大数据学习3（全分布式安装）【代码】

NNSNNDNnode0001* node0002 **node0003 *node0004 * 1、环境检查：4台机器jdk安装完成date （检查时间，相差不能超过几秒，主从节点ping不通）date -s "2020-07-18 23:32:00" (4台机器设置i相同时间)cat /etc/sysconfig/network (查看4台机器别名是否设置好)cat /etc/hosts (查看ip/别名映射是否设置好 )cat /etc/sysconfig/selinux （查询安全机制文件是否关闭 SELINUX=disabled）检查防火墙是否关闭2、秘钥分...

jdbc 大数据存储图片读取【代码】

package com.itheima.clob.test;import java.io.File; import java.io.FileReader; import java.io.FileWriter; import java.io.Reader; import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.ResultSet;import org.junit.Test;import com.itheima.utils.JdbcUtil; /*** 测试大文本数据读写drop database day16;create database day16;use day16;create table testclob(id int primary key,content lo...

大数据赋予互联网金融充沛活力

当前互联网金融如火如荼，除了为数众多的互联网公司推出的各种“宝宝”类产品外，p2p、众筹等在街头巷议中也总是被人津津乐道。当然，在互联网金融一片风光的形势下，各大不甘寂寞的金融公司也是纷纷试水，由其推出的各种创新产品和服务更是层出不穷。　　一位专家表示，从去年开始，陆续有基金公司和互联网企业就大数据方面的合作进行密谈，“这是互联网金融朝着更深层次进发的必然结果，毕竟，互联网除了用户群以外，更为核心的就...

第六章大数据，6.2 双11背后的大规模数据处理(作者：惠岸朋春谦乐)【代码】【图】

6.2 双11背后的大规模数据处理1. 实时数据总线服务-TTTimeTunnel（TT）在阿里巴巴集团内部是一个有着超过6年历史的实时数据总线服务，它是前台在线业务和后端异步数据处理之间的桥梁。从宏观方面来看，开源界非常著名的Kafka+Flume的组合在一定程度上能够提供和TT类似的基础功能；不同的是，在阿里巴巴的业务体量和诉求下，我们有比较多的配置管控、资源调度、轨迹校验和血缘识别等方面的工作。TimeTunnel产品架构 1.1 Pub/Sub服务...

大数据处理之道(预处理方法）【图】

一：为什么要预处理数据？（1）现实世界的数据是肮脏的（不完整，含噪声，不一致）（2）没有高质量的数据，就没有高质量的挖掘结果（高质量的决策必须依赖于高质量的数据；数据仓库须要对高质量的数据进行一致地集成）（3）原始数据中存在的问题：不一致 —— 数据内含出现不一致情况反复不完整 —— 感兴趣的属性没有含噪声 —— 数据中存在着错误、或异常（偏离期望值）的数据高维度二：数据预处理的方法（1）数据清洗 —— ...

如何正确合理的建立MYSQL数据库索引和提高mysql千万级大数据SQL查询优化30条经验【代码】

如何正确合理的建立MYSQL数据库索引索引是快速搜索的关键。MySQL索引的建立对于MySQL的高效运行是很重要的。下面介绍几种常见的MySQL索引类型。在数据库表中，对字段建立索引可以大大提高查询速度。假如我们创建了一个 mytable表： CREATE TABLE mytable( IDINTNOT NULL, username VARCHAR(16) NOT NULL ); 我们随机向里面插入了10000条记录，其中有一条：5555, admin。在查找username="admin"的记录 SELECT * FROMmytable WHE...

大数据要来了？

毫无疑问，最近几年世界发生了翻天覆地的变化，国外的事我这个井底之蛙不知道，单看中国这几年的发展已经很不得了。从台式机到笔记本，从笔记本到平板电脑，从平板到手机，从手机要转向更小的手表，眼镜。从C2C到B2C到B2B，从开始的只有几家快递公司到现在谁都基本不在乎发的那家快递，甚至商家有自己的快递。短短几年，发展好快。我们并没有刻意的创造奇迹，但是从人类历史上看，这短短的几年不得不说是人类文明加速发展的起点。...

2016 中国大数据技术大会相关资料【图】

2016 中国大数据技术大会相关资料：650) this.width=650;" src="/upload/getfiles/default/2022/11/10/20221110040929255.jpg" title="微信图片_20170321090207.png" />地址：http://special.csdncms.csdn.net/BDTC2016/http://download.csdn.net/meeting/meeting_detail/25原文：http://hiweb.blog.51cto.com/3355462/1908638

【转载】大数据用到的技术和软件（名词解释）

大数据学习路线java　　(Java se,javaweb)Linux　　(shell,高并发架构,lucene,solr)Hadoop　　(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习　　(R,mahout)Storm　　(Storm,kafka,redis)Spark　　(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)Python　　(python,spark python) 云计算平台　　(docker,kvm,openstack)名词解释一、Linuxlucene：全文检索引擎的架构solr：...

新闻网站大数据项目【代码】【图】

介绍：&emsp本次项目是基于企业大数据经典案例项目（大数据日志分析），全方位、全流程讲解大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。一、业务需求?? （一）捕获用户浏览日志信息?? （二）实时分析前20名流量最高的新闻话题?? （三）实时统计当前线上已曝光的新闻话题?? （四）统计哪个时段用户浏览量最高二、系统架构三、集群规划四、数据源介绍五、项目实战1）离线采...

大数据处理方法bloom filter

布嵘过滤器为一种空间效率很高的随机数据结构, 它的实现方法主要包括一个位数组, 可用c++中的bitset来实现和k个哈希函数. 算法原理为: 当向某一个集合中添加一个元素的时候, 该元素会分别作为K个哈希函数的输入, 将该元素映射到位数组的k个点, 将这些点置为1. 当要查找某个元素是否在该集合中时, 只要将该元素作为k个哈希函数的输入, 然后看映射到的k个点是否为1, 如果全为1, 则该元素(可能)在该集合中, 如果出现了一个为0, 则说明...

大数据Java基础第十二天作业【代码】

第一题：HashMap内部实现原理 HashMap存的是key => value 对的集合，每一对就是一个entry(条目)，key和value存的都是对象的引用。key不能存重复的值，key的集合是keySet()。value可以存重复的值，value的集合是values()。 HashMap底层用的是hash(散列)算法，使的在map中查询值速度快效率高。 HashMap判断对象是否相等,先判断hashcode是否相等，再判断equals值是否相等。对象相等代码：(this.hashcode() == obj.hashcode() && (this...

上一页
1
...
19
20
21
22
23
...
50
下一页
共 50 页
共 750 条

大数据 - 最热教程

python处理大数据你选什么工具? pandas...冲着这份大数据分析案例，我立马下载该...06-大数据性能优化- 长列表优化 /Objec...大数据学习总结（2021版）---shell windows下大数据开发环境搭建（1）——...Python：如何在未排序的列表中查找大于...Python如何处理大数据？3个技巧效率提升...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...spring boot集成mongodb 分片解决大数据...