欢迎来到无限飞翔,在这里,你会找到许多有趣的技术 : )

标签:大数据

开发者头条

从 0 开始学大数据:Hive 基础篇

从 0 开始学大数据:Hive 基础篇
Hive起源于Facebook,是基于 Hadoop HDFS 分布式文件系统的分布式 数据仓库 架构。它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言(HiveQL)。...

4个月前 (07-15) 205℃ 0喜欢

开发者头条

Uber 大数据平台的演进(2014~2019)

Uber 大数据平台的演进(2014~2019)
也可以到我个人博客阅读(点击下面阅读原文即可) https://www.iteblog.com/archives/2557.html Uber 致力于在全球市场上提供更安全,更可靠的运输服务。为了实现这一目标,Uber 在很大程度上依赖于数据驱动的决策,从预测高...

4个月前 (07-15) 143℃ 0喜欢

开发者头条

海量数据下的舆情分析,该如何搭建?

海量数据下的舆情分析,该如何搭建?
阿里妹导读:互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博、朋友圈或者点评网站上发表动态,分享自己的所见所想,使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦,传播速度远超我们的想象,一则信息可以在短短数分钟...

4个月前 (07-15) 162℃ 0喜欢

开发者头条

从 0 开始学大数据:Hive 性能优化篇

从 0 开始学大数据:Hive 性能优化篇
在工作中使用hive比较多,也写了很多HiveQL。这里从三个方面对 Hive 常用的一些性能优化进行了总结。 表设计层面优化 利用分区表优化 分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如果筛选条件里有分区...

4个月前 (07-15) 230℃ 0喜欢

开发者头条

从零开始入门推荐算法工程师

从零开始入门推荐算法工程师
点击上方“大数据与人工智能”,“星标或置顶公众号” 第一时间获取好内容 作者丨gongyouliu 这是作者的第9篇文章,约1.3W字,阅读需60min 作者在《推荐算法工程师的成长之道》这...

6个月前 (05-31) 231℃ 0喜欢

开发者头条

基于磁盘的 Kafka 为什么这么快

基于磁盘的 Kafka 为什么这么快
Kafka是大数据领域无处不在的消息中间件,目前广泛使用在企业内部的实时数据管道,并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储,但却具有高性能、高吞吐、低延时的特点,其吞吐量动辄几万、几十上百万,这其中的原由值得我们一探究竟。本文属于Kafka知识...

6个月前 (05-31) 261℃ 0喜欢