大数据学习常见问题-伙伴云

网友投稿 716 2022-05-28

Hadoop几个主要产品的架构都是一主多从。HDFS，一个NameNode，多个DataNode；MapReduce 1，一个JobTracker，多个TaskTracker；Yarn，一个ResourceManager，多个NodeManager。Storm，一个Nimbus，多个Supervisor；Spark，一个Master，多个Slave。

大数据因为要对数据和计算任务进行统一管理，所以和互联网在线应用不同，需要一个全局管理者。而在线应用因为每个用户请求都是独立的，而且为了高性能和便于集群伸缩，会尽量避免有全局管理者。

所以我们从Hadoop中可以学到大数据领域的一个架构模式，也就是集中管理，分布存储与计算。

学习方法

学习新知识遵循5-20-2法则：

5分钟的时间了解这个新知识的特点、应用场景、要解决的问题

如果5分钟不能搞懂它要解决的问题，我就会放弃

20分钟理解它的主要设计原理、核心思想和思路

20分钟没有理解它的设计思路，我也会放弃

2个小时看关键的设计细节，尝试使用或者做一个demo

2个小时还上不了手，我也会放一放

你相信我，一种真正有价值的好技术，你这次放弃了，它过一阵子还会换一种方式继续出现在你面前。这时，再尝试用5-20-2法则学习，也许就理解了。

实时计算的结果，一般都存储在什么库上?便于实时展示

实时计算的结果一般通过两种方式输出：

写入到数据库里，和离线计算的结果组成全量数据供业务使用

通过Kafka之类的实时队列给业务，比如你提到的监控展示

HDFS水平伸缩的文件读写速度比起垂直伸缩的速度理论上会慢很多，如何保证速度?

并不会慢，影响文件读写速度的是磁盘的速度。同样的数据量、同样类型的磁盘，HDFS能将数据分布在更多的服务器和磁盘，肯定比单机的几块磁盘速度更快。

HDFS常用的使用方式是结合MapReduce或Spark大数据计算框架进行计算，这些计算框架会在集群中启动很多的分布式计算进程同时对HDFS上的数据进行读写操作，数据读写的速度非常快，甚至能支撑起Impala这样的准实时计算引擎。

互联网应用中，用户从手机或者PC上发起一个请求，请问这个请求数据经历了怎样的旅程?完成了哪些计算处理后响应给用户?

一个请求从Web或者移动App上发起，请求的URL是用域名标识的，如taobao.com，而HTTP网络通信需要得到IP地址才能建立连接，所以先要进行域名解析，访问域名解析服务器DNS，得到域名的IP地址。

得到的这个IP地址其实也不是淘宝的服务器的IP地址，而是CDN服务器的IP地址，CDN服务器提供距离用户最近的静态资源缓存服务，如图片、JS、CSS。若CDN：

有请求需要的资源就直接返回

大数据学习常见问题

若无，再把请求转发给真正的淘宝数据中心服务器。

请求到达数据中心后，首先处理请求的是负载均衡服务器，它会把这个请求分发给下面的某台具体服务器处理。这台服具体的服务器通常是反向代理服务器，也缓存着大量静态资源，淘宝也会把一些通常是动态资源的数据，比如我们购物时经常访问的商品详情页，把整个页面缓存在这里：

若请求的数据在反向代理服务器，就返回

若无，请求将发给下一级的负载均衡服务器

这一级的负载均衡服务器负责应用服务器的负载均衡，将请求分发给某Java Web容器处理。在Java Web容器之前，还前置了一台Nginx服务器，做一些前置处理。

应用服务器根据请求，调用后面的微服务进行逻辑处理。若为写请求，如下单，应用服务器和微服务之间通过MQ进行异步操作，避免对DB造成太大压力。

微服务若在处理过程中需读取数据，会去缓存服务器查找，若没找到，就去查DB或NoSQL，甚至搜索引擎，得到数据后，计算，将结果返给应用服务器。

应用服务器将结果包装成前端需要格式后返回，经过前面的访问通道，最后到达用户发起请求的地方，完成一次互联网请求的旅程。

架构图表示的流程：

大数据 服务上云的思考">大数据 服务上云的思考

716 2022-05-28

学习 笔记20170601">【PMP】学习 笔记20170601

716 2022-05-28

常见问题汇编">Spring MVC DispatcherServlet改造为 CSE RestServlet 常见问题汇编

716 2022-05-28

大数据 学习 常见问题

大数据 服务上云的思考">大数据 服务上云的思考

学习 笔记20170601">【PMP】学习 笔记20170601

常见问题汇编">Spring MVC DispatcherServlet改造为 CSE RestServlet 常见问题汇编

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

微信扫一扫：分享

大数据服务上云的思考">大数据服务上云的思考

学习笔记20170601">【PMP】学习笔记20170601

常见问题汇编">Spring MVC DispatcherServlet改造为 CSE RestServlet 常见问题汇编

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接