1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 大数据面试演讲稿 离线数仓实时分析

大数据面试演讲稿 离线数仓实时分析

时间:2024-07-12 01:43:28

相关推荐

大数据面试演讲稿 离线数仓实时分析

有关大数据学习资源,请关注微信公众号“码农书斋”。回复“大数据”,免费获取学习视频、源码及资料!

自我介绍

​ 面试官好!

​ 我叫xxx,xxx年毕业于xxx大学。之前做过

后来公司准备开始做实时的项目,就把我抽调出来做实时。项目是基于sparkStreaming实时计算框架。做之前也是对sparkStreaming这个技术也做了研究。实时项目也是做了大半年。

最近一段时间我发现flink非常火,我也喜欢研究新技术,然后就去研究了一下flink。利用业务时间把公司的一些实时指标,用flink重新实现了一遍,发现效果非常明显,非常好。它是实现了真正的实时。

项目介绍

1.1.1 数据量统计

1:用户行为数据

每日活跃用户:100万人

每人产生日志数量:100条

每天产生日志数量:100万*100条=1亿条日志

用户行为日志数据格式:

字段包括:

1,日期

2,用户id

3, session_id

4, 页面id

5, 动作时间点

6,搜索关键字

7,点击的年级id 和课程id

8, 下单的年级id 和课程id

9, 支付的年级id 和课程id

10, 城市id

每条日志数据大小:0.5-2k之间,平均每条1k左右

每天数据量大小:1亿*1k 大概100G左右

数据仓库:

ods层

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。