hadoop的背景与意义？

一、hadoop的背景与意义？

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。

二、cProc与Hadoop的区别？

cProc是借鉴Hadoop并行处理框架开发的一套云处理软件，解决了Hadoop的单点故障问题，并且优化和大大提升了Hadoop的性能。

同时，cProc还带有数据立方存储索引结构，解决了海量数据的快速索引和查询问题，使得百亿条数据能够在秒级处理，可以让系统具备数据实时入库、实时查询、查询结果实时传输等优点。

三、Hadoop与Spark的关系，Spark集群必须依赖Hadoop吗？

必须在hadoop集群上，它的数据来源是HDFS，本质上是yarn上的一个计算框架，像MR一样。

四、GreenPlum与hadoop什么关系？

GreenPlum采取的是PostgreSql框架，是PostgreSql系的重要应用。从这个角度上可以知道GreenPlum是关系型数据库。

Hadoop框架是一种分布式的平台设计理念。它本身不是数据库。其中Impala可以认为是一种非关系型的数据库, Hive相当于SQL。

分布式，是多个方面的，最主要是存储方面。GreenPlum的分布式主要体现在多个机器文件存储，授权等方面。而Hadoop的文件管理方面，也是分布式的，因为只有分布式的部署才能最大效力的发回Hadoop的功能。

因此可以认为GreenPlum和Hadoop没有直接关系。

五、hadoop的4个优势与原理？

优势1、高可靠性2、高扩展性3、高效性4高兼容

原理：其底部是HSDS，它存储Hadoop集群中所有存储节点文件。HDFS的上一层是引擎。

六、hadoop大数据与开发区别？

　　区别于过去的海量数据，大数据的特点可以概况为4个V：Volume、Variety、Value和Velocity，即大量、多样、价值密度低、快速。

　　第一，数据体量大。大数据一般指在10TB(1TB=1024GB)规模以上的数据量，目前正在跃升到PB(1PB=1024TB)级别。不仅存储量大，计算量也大。

　　第二，数据类型多。除了数值数据，还有文字、声音、视频等，包括网络日志、视频、图片、地理位置信息等多种类型的格式。由于数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。

　　第三，价值密度低。以视频为例，不间断监控视频中，有价值的数据可能仅有一两秒。找到有价值的信息有如沙里淘金，其价值却又弥足珍贵。

　　第四，处理速度快。在数据量非常庞大的情况下，也能做到数据的实时处理。这一点和传统的数据挖掘技术有着本质的不同。

　　大数据技术是指从各种类型的大体量数据中快速获得有价值信息的技术。这是大数据的核心问题。目前所说的大数据不仅指数据本身的规模，也包括采集数据的工具、平台和数据分析系统。大数据研发的目的是发展大数据技术并将其应用到相关领域，通过解决大体量数据处理问题促进其突破性发展。因此，大数据时代带来的挑战不仅体现在如何处理大体量数据并从中获取有价值的信息，也体现在如何加强大数据技术研发。大数据所涉及的关键技术大致包括6个方面：数据采集与数据管理、分布式存储和并行计算、大数据应用开发、数据分析与挖掘、大数据前端应用、数据服务和展现。

　　2大数据与Hadoop

　　大数据技术正在向各行各业渗透。Hadoop作为数据分布式处理系统的典型代表，已经成为该领域事实的标准。但Hadoop并不等于大数据，它只是一个成功的处理离线数据的分布式系统，大数据领域还存在众多其他类型的处理系统。

　　伴随大数据技术的普及，Hadoop因其开源的特点和卓越的性能成为一时的新宠，甚至有人认为大数据就是Hadoop，其实这是一个误区。Hadoop只是处理离线数据的分布式存储和处理系统。除了Hadoop，还有用于处理流数据的Storm、处理关系型数据的Oracle、处理实时机器数据的Splunk……目前主流的大数据系统很多，Hadoop只是其中的代表。

七、hadoop框架？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

八、hadoop特性？

hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是一种可靠，高效，可伸缩的方式进行处理的，它有一下几方面特性：

1.高可靠性：采用冗余数据存贮方式，即使一个副本发生故障，其他副本也可以保证对外工作的正常进行。

2.高效性：作为并行分布式计算平台，hadoop采用分布式存贮和分布式处理两大核心技术，能够高效的处理PB级别的数据

3.高可扩展性：hadoop的设计目标是可以高效稳定的运行在廉价的计算机集群上，可以扩展到数以千计的计算机节点上。

4.高容错性：采用冗余数据存贮方式，自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

5.成本低：hadoop采用廉价的计算机集群，普通的用户也可以pc机搭建环境

6.运行在linux平台上，hadoop是基于java语言开发的，可以较好的运行在linux的平台上

7.支持多种编程语言，如：C++等/

九、hadoop之父？

Hadoop之父Doug Cutting

Doug Cutting 看到他儿子在牙牙学语时，抱着黄色小象，亲昵的叫 hadoop，他灵光一闪，就把这技术命名为 Hadoop，而且还用了黄色小象作为标示 Logo，不过，事实上的小象瘦瘦长长，不像 Logo 上呈现的那么圆胖。“我儿子现在 17 岁了，所以就把小象给我了，有活动时就带着小象出席，没活动时，小象就丢在家里放袜子的抽屉里。

十、spark平台与hadoop比较哪个前景更好？

相比hadoop，spark更擅长内存计算，在对计算速度要求越来越高的今天，个人认为spark更有前景。