面向初学者和专业人士的 Hadoop 教程 在讲什么是 Hadoop 之前?对于我们来说,了解为什么需要大数据 Hadoop 以及为什么我们的遗留系统无法应对大数据非常重要。让我们在本 Hadoop 教程中首先了解 Hadoop。 观看有关“Hadoop 培训”的视频: × 在学习“什么是 Hadoop?”时,我们必须关注以下主题: 遗留系统的问题 遗留系统和大数据 Hadoop 之间的差异 什么是 Hadoop? Apache Hadoop 的历史 Hadoop如何解决大数据问题? 大数据的特点 Uber 如何处理大数据? Uber 的大数据识别 Uber系统引入Apache Hadoop 为什么选择 Hadoop? 使用 Hadoop 的各种领域 Hadoop架构 Hadoop 中的重要术语 大数据工具在社交媒体中的使用 遗留系统的问题 让我们在本 Hadoop 教程中首先讨论遗留系统以及它们如何无法处理大数据。但是等等,什么是遗留系统?遗留系统是由于某些问题而陈旧且过时的传统系统。
为什么我们需要 Hadoop 这样的大数据解 WhatsApp 号码列表 决方案?为什么 MySQL 或 Oracle 等传统数据库解决方案现在不再可行? 首先,当数据量增加到TB级时,可扩展性会出现问题。我们必须对数据进行非规范化和预聚合,以加快查询执行速度,并且随着数据变大,我们将被迫在优化额外查询的索引方面对流程进行更改。 遗留系统 当我们的数据库使用适当的硬件资源运行时,但我们发现性能问题,那么我们必须对查询进行更改或找到访问数据的方法。 我们无法通过添加更多的硬件资源或计算节点并分布问题来降低计算时间,即数据库不可水平扩展。通过添加更多资源,我们不能指望提高执行时间或性能。 第二个问题是传统数据库是为了处理结构化数据而设计的。因此,当我们的数据结构不正确时,数据库就会陷入困境。当我们有多种不同格式的数据(例如文本、图像、视频等)时,数据库并不是一个好的选择。

另一个关键挑战是,当我们将硬件成本和白金级存储成本相加时,对于相对较少的数据量,优秀的企业数据库解决方案可能会相当昂贵。简而言之,这是一个昂贵的选择。 传统解决方案 接下来,我们有分布式解决方案,即网格计算,它基本上是在数据桨上运行的多个节点,因此计算速度更快。然而,对于这些分布式解决方案来说,存在两个挑战: 首先,高性能计算更适合数据量相对较小的计算密集型任务。因此,当数据量很大时,它的性能不佳。 其次,网格计算需要良好的低级编程知识经验来实现它,因此它不适合主流。 因此,基本上,一个好的解决方案当然应该能够处理大量数据并提供高效的数据存储,无论数据格式如何变化,并且不会丢失数据。 观看“大数据和遗留系统和大数据 Hadoop 之间的差异 虽然传统数据库擅长某些事情,但大数据 Hadoop 擅长其他许多事情。