切换马甲
上一页
下一页
分类专栏
-
8篇
默认分类
文章数:8
文章总阅读量:5.1w
文章总收藏量:114
文章总点赞量:636
按发布时间
按阅读量
按点赞量
-
前言 大家一定对Hive不陌生吧!Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。因此,hive十分适合对数据仓库进行统计分析。 本期2020-12-02 13:40:0097 61 7994
-
前言 在《基于flink的电商用户行为数据分析【3】| 实时流量统计》这篇文章中,博主为大家介绍了基于服务器 log 的热门页面浏览量统计。 最后通过运行结果的验证,我们发现,从 web 服务器 log 中得到的 url,往往更多的是请求某个资源地址(/*.js、/*.css),如果要针对页面进行统计往往还需要进行过滤。而在实际电商应用中,相比每个单独页面的访问量,我们可能更加关心2020-12-06 00:56:0845 8 7708
-
前言 上一篇文章《Hive查询的18种方式,你都学会了吗?》为大家系统地介绍了Hive查询的18种方式,受到了一些朋友的好评,让笔者备受鼓舞。于是本篇文章,我们再来学习关于Hive常用的函数,希望读者朋友们能够从中受益! Hive内部支持大量的函数,可以通过 SHOW FUNCTIONS 查看Hive的内置函数。灵活地运用Hive提供的函数能够极大地节省数据分析2020-12-06 16:44:2636 9 7358
-
前言 前段时间,我负责在所属的一个团队内部去推动一项叫做“Testcontainers”的技术。于是在调研并打磨了数天之后,就诞生下文。希望看完本篇文章的你,能够有所收获,感谢阅读! 1. 技术的演进 1.1 传统的测试 我们的项目上线之前,一定会经过大量的测试。早期,如果一个项目所依赖的外部配置比较繁多,那么每次测试,我们都需要将项目所依赖的2020-12-29 18:07:1988 5 6253
-
一、前言 上一篇文章,为大家介绍了关于 FlinkSQL 的背景,常见使用以及一些小技巧。学完之后,对于FlinkSQL只能算是简单入了个门。不过不用担心,本篇文章,博主将为大家带来关于 FlinkSQL中流处理的特殊概念,喜欢的话,记得看完点个赞|ू・ω・` ) 二、流处理中的特殊概念 Table API和SQL,本质上还是基于关系型表的操作方式;而关系型表、关2021-01-17 16:24:3299 8 6321
-
前言 我们在日常开发中需要经常接触到关系型数据库,如MySQL,Oracle等等,用它们来将处理后的数据进行存储。为了能够在Hadoop上分析这些数据,我们需要一些“工具”,将关系型数据库中的结构化数据存储到HDFS上。本篇文章,菌哥将介绍的一个操作最简单,同时也是在工作中使用频率极高的开源组件——Sqoop,希望您能在耐心看完之后,有所收获! 1、Sqoop简介2021-01-24 16:43:5086 8 4928
-
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有我准备的大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star! 前言 之前一直想花点时间写一篇 elasticsearch 的保姆级教程,于是,趁着年假的几天时间加上周末的一些时间,我2021-03-01 10:14:2696 8 6266
-
本文已收录github:https://github.com/BigDataScholar/TheKingOfBigData,里面有大数据高频考点,Java一线大厂面试题资源,上百本免费电子书籍,作者亲绘大数据生态圈思维导图…持续更新,欢迎star! 前言 都说现在大数据生态圈用“百花齐放”来形容真的一点也不为过。之前的文章已经分别为大家介绍了现在企业中常用的即席查询框架 ——2021-04-05 12:09:1389 7 4120