ibb娱乐彩票
上海代寫論文網專業提供代寫畢業論文、代寫本科論文服務
您現在的位置:首頁 > 管理學論文 > 信息管理論文 >
國內外關于大數據技術的研究現狀
發布時間:2015-10-21
摘要

  0 引 言

  隨著計算機技術和互聯網的急速發展,特別是隨著 Web2. 0的發展,互聯網上的數據量高速增長,對大數據處理能力相對不足。伴隨著待處理數據越來越多,當前已經到了無法將大數據存儲在一臺或有限數目的服務器內,更無法由數目有限的計算機來處理大數據的窘境。因此,如何實現資源和計算能力的分布式共享以及如何應對當前數據量高速增長的勢頭,是目前數據管理、數據處理領域亟待解決的問題。

  IBM 給出了大數據的三個 V,分別是: Volume,Variety,Ve-locity.大數據在 Volume 體現的是處理的數據量正從 T 級別跨越到 Z 級別,在 Variety 體現的是處理的數據類型從結構化類型為主過渡到結構化和非結構兩種數據類型共存; 在 Velocity 體現的是對數據處理的響應時間從批處理響應時間到實時的流數據處理響應時間。本文給出大數據的描述: 規模大; 深度大; 寬度大; 處理時間短; 硬件系統普通化; 軟件系統開源化。

  1 國內外研究現狀

  1. 1 并行數據庫研究

  大數據處理的傳統方法是使用并行數據庫系統。并行數據庫系統是在大規模并行處理系統( MPP) 和集群并行計算環境的基礎上建立的高性能數據庫系統。這樣的系統是由許多松耦合處理單元組成的,指的是處理單元而不是處理器。每個單元內的 CPU 都有自己私有的資源,如總線、內存、硬盤等。在每個單元內都有操作系統和管理數據庫的實例復本。這種結構最大的特點在于不共享資源。國外在該領域研究起步較早,在 20 世紀 80 年代就出現了可以運行在非共享節點組成的集群上的數據庫系統。這些系統都支持標準的關系型表和 SQL,同時對于終端用戶來說數據事實上是透明地存儲在多個機器上的。很多這類系統都是建立在 Gamma[4]和 Grace[5]的并行 DBMS 項目的先驅性研究成果之上的。80 年代后期,并行數據庫技術的研究方向逐步轉到了通用并行機方面,研究的重點是并行數據庫的物理組織、操作算法、優化和調度策絡。

  早在 20 世紀 80 年代中期,Teradata 和 Gamma 項目就開始探索一種基于通過高速互聯網絡連接的“share-nothing 節點”( 具有獨立 CPU,主存和磁盤) 組成的集群的全新并行數據庫架構模式[30],如圖 1 所示。從那時起,幾乎所有的并行數據庫系統都用到了這兩個項目的技術: 關系表的水平分區以及 SQL 查詢語句的分區執行[15].水平分區的背后思想是將關系表的行在集群節點上進行劃分,這樣他們就可以被并行地處理。比如將一個 10-million-行的表在一個 50 節點的集群上進行劃分,每個節點具有 4 個磁盤,這樣每個磁盤上將會有 50 000 個行。絕大多數的并行數據庫系統都提供了多種劃分策略,包括 Hash,range 以及 round-robin 劃分[8].在基于 Hash 的分區模式下,當每行被加載的時候,會對每行里的一個或多個屬性應用一個Hash 函數來決定該行所應該存放的目標節點和磁盤。

  從 20 世紀 90 年代至今,隨著處理器、存儲、網絡等相關基礎技術的發展,并行數據庫技術的研究上升到一個新的水平,研究的重點也轉移到數據操作的時間并行性和空間并行性上。能夠并行執行有兩個關鍵: 1) 大部分( 甚至是所有的) 表被劃分到集群的所有節點上; 2) 系統使用一個優化器來將 SQL 命令翻譯成在多個節點上執行的查詢計劃。因為程序員只需要使用高級語言描述他們的目的,因此他們根本不需要關心底層存儲細節,比如索引配置和連接策略。并行數據庫系統的目標是高性能和高可用性,通過多個處理節點并行執行數據庫任務,提高整個數據庫系統的性能和可用性。性能指標關注的是并行數據庫系統的處理能力,具體的表現可以統一總結為數據庫系統處理事務的響應時間。并行數據庫系統的高性能可以從兩個方面理解,一個是速度提升; 一個是范圍提升。速度提升是指,通過并行處理,可以使用更少的時間完成兩樣多的數據庫事務。范圍提升是指,通過并行處理,在相同的處理時間內,可以完成更多的數據庫事務。并行數據庫系統基于多處理節點的物理結構,將數據庫管理技術與并行處理技術有機結合,來實現系統的高性能。

  可用性指標關注的是并行數據庫系統的健壯性,也就是當并行處理節點中的一個節點或多個節點部分失效或完全失效時,整個系統對外持續響應的能力。高可用性可以同時在硬件和軟件兩個方面提供保障。在硬件方面,通過冗余的處理節點、存儲設備、網絡鏈路等硬件措施,可以保證當系統中某節點部分或完全失效時,其他的硬件設備可以接手其處理,對外提供持續服務。

  在軟件方面,通過狀態監控與跟蹤、互相備份、日志等技術手段,可以保證當前系統中某節點部分或完全失效時,由他所進行的處理或由他所掌控的資源可以無損失或基本無損失地轉移到其他節點,并由其他節點繼續對外提供服務。

  1. 2 面向大數據處理的 MapReduce 模型研究

  2004 年 Google 研究員 Jeffrey Dean 和 Sanjey Ghemawat 通過對網頁數據存儲和并行分析處理研究后,在文獻[1]提出 Ma-pReduce 計算模型并在 ACM 等多個期刊上轉載[2,3].MapRe-duce 計算模型為大數據分析處理問題提供了一個新的有效解決方法和途徑。文獻中指出,“MapRedcue 是一種編程模型,以及一個處理和生成大數據集的相關實現。程序被寫成函數式,并且自動并行執行在一個大規模的通用計算機集群上。這允許沒有任何并行和分布式系統編程經驗的程序員輕松地利用大規模分布式系統的資源。”MapReduce 計算模型 Map 操作通過把輸入數據進行分區,例如: 分為 M 塊,分布到不同的機器上并行執行。Reduce 操作是通過對中間產生的 key 的鍵值對來進行分布的,中間產生的 key 可以根據某種分區函數進行分布,分布成為 R 塊。分區( R) 的數量和分區函數都是由用戶指定的。具體流程如圖 2 所示。

  ( 1) 用戶程序中的 MapReduce 函數庫首先把輸入文件分成M 塊,每塊大小為 16M 到 64M( 可以通過參數決定) .接著在cluster 的 worker 機器上執行處理程序。

  ( 2) 這些分排的執行程序中有一個程序比較特別,它是主控程序 master.剩下的執行程序都是作為 master 分排工作的worker.總共有 M 個 map 任務和 R 個 Reduce 任務需要分排。master 選擇空閑的 worker 并且分配這些 map 任務或者 Reduce任務。

    ( 3) 一個分配了 map 任務的 worker 讀取并處理相關的輸入小塊。它處理輸入的數據,并且將分析出的 key/value 對傳遞給用戶定義的 map 函數。map 函數產生的中間結果 key/value對暫時緩沖到內存。

  ( 4) 這些緩沖到內存的中間結果將被定時刷寫到本地硬盤,這些數據通過分區函數分成 R 個區。這些中間結果在本地硬盤的位置信息將被發送回 master,然后這個 master 負責把這些位置信息傳送給 Reduce 的 worker.

  ( 5) 當 master 通知 Reduce 的 worker 關于中間 key/value 對的位置時,它調用 remote procedure 來從 map worker 的本地硬盤上讀取緩沖的中間數據。當 Reduce 的 worker 讀到了所有的中間數據,就使用中間 key 進行排序,這樣可以使得相同 key 的值都在一起。因為有許多不同 key 的 map 都對應相同的 Reduce任務,所以,排序是必須的。如果中間結果集太大,那么就需要使用外排序。

    ( 6) Reduce worker 根據每一個唯一中間 key 來遍歷所有的排序后的中間數據,并且把 key 和相關的中間結果值集合傳遞給用戶定義的 Reduce 函數。Reduce 函數對于本 Reduce 區塊輸出到一個最終的輸出文件。

  ( 7) 當所有的 map 任務和 Reduce 任務都已經完成的時候,master 激活用戶程序。在這時候 MapReduce 返回用戶程序的調用點。

  通過上面 7 個步驟,就順利執行完 1 個完整的 MapReduce計算任務,可見并行計算技術能顯著提高數據處理能力。

  1. 3 NoSQL 與數據庫技術的對比

  非關系型數據庫( NoSQL) 以鍵值對存儲,它的結構不固定,每一個元組可以有不一樣的字段,每個元組可以根據需要增加一些自己的鍵值對,這樣就不會局限于固定的結構,可以減少一些時間和空間的開銷。Google 的 BigTable[13]就是典型的 NoSQL實現。另外具有代表性的還有 Apache Cassandra 由 Facebook 在Hadoop[23]基礎上開發的混合型的非關系的數據庫,類似于Google 的 BigTable,用于儲存特別大的數據。

  一開始,數據庫領域專家對 MapReduce 計算模型為代表的非關系型數據庫持否定態度。2009 年 6 月,在 SIGMOD 09 上刊登了 Andrew Pavlo,Daniel J. Abadi,David J. DeWitt 和 MichaelStonebraker 等的著名數據庫合作的文章“A Comparision of Ap-proaches to Large-Scale Data Analysis”[20],分別對并行數據庫和MapReduce 兩種模型進行了描述。此外,對比了這兩種系統的性能和開發的復雜度。最后,定義了由多個計算任務組成的測試集,并在一個 MR 的開源版本和兩個并行 DBMS 系統上進行了測試。針對每個計算任務,并且在一個 100 節點的集群上進行了多個并行度上的系統性能測試。得出結論: 盡管并行DBMS 的數據加載過程和執行調優所花費的時間比 MR 系統要長,但是這些 DBMS 系統所表現出的執行性能卻比 MR 系統好很多,并最后認定: MapReduce 在大數據處理上比并行數據庫差。

  隨著 MapReduce 技術性能的提升、應用領域的擴展,關系數據管理技術和 MapReduce 技術的爭論一直持續。于是在2010 年 1 月的 ACM 通訊雜志同時向 MIT 的 Stonebraker 教授和Google 的 Jeff Dean 和 Sanjay Ghemawat 研究員進行約稿。Dean 研 究 員 在“MapReduce: A Flexible Data ProcessingTool”[3]中指出 MapReduce 是進行大規模數據分析處理的靈活而有效的工具。與并行數據庫相比,MapReduce 的優勢包括存儲系統無關以及大規模 jobs 的細粒度容錯性。MapReduce 是一個用于大規模數據集合生成和處理的編程模型。用戶描述一個Map 函數和 Reduce 函數,Map 函數會處理一個 key / value 對來生成一系列的中間 key/value 對集合,Reduce 函數會對具有相同中間 key 值的中間 values 進行合并。在 2003 年 Dean 就基于MapReduce 模型構建了一個系統用來簡化 Google.com 所使用的倒排索引的構建。從那時起,在 Google 已經有超過 10 000 個的不同程序使用了 MapReduce,涵蓋了用于大規模圖處理、文本處理、機器學習、機器翻譯等各方面的算法。MapReduce 的 Ha-doop 開源實現也已被 Google 之外的很多組織廣泛使用。與并行數據庫相比,MapReduce 具有很多顯著的優勢。首先也是最重要的,它為大規模 jobs 提供了細粒度的容錯性; 在一個需要運行幾個小時的任務中間出現錯誤時,不需要從頭開始。其次,MapReduce 對于一個具有多個存儲系統的異構系統的數據處理和加載非常有幫助。第三,MapReduce 提供了一個可以執行那些比 SQL 所能直接支持的更復雜函數的好框架。Stonebraker 教授在“MapReduce and parallel DBMSs friendsor foes?”[29]中則從最初的對 MapReduce 技術的徹底否定,轉為肯定 MapReduce 的良好擴展性,并且指出,MapReduce 非常適合做 ETL 這樣的工作。目前,越來越多的數據庫研究人員逐漸意識到,MapReduce 和關系數據庫可以互相學習,并且走向集成。

  MapReduce 可以從 RDBMS 學習查詢優化、模式支持、外圍工具支持等,而 RDBMS 可以從 MapReduce 學習得到高度的擴展性和容錯性、快速裝載、易于使用等特點。

  1. 4 MapReduce 與數據庫技術相結合研究

  在并行數據庫與 MapReduce 模型相結合的理論研究方面,國外以耶魯大學的 Daniel J. Abadi 研究員為代表,其研究團隊近三年在 SIGMOD,VLDB 上發表了多篇關于在數據庫領域的列存儲的論文[8 -11],分別在 2009 年和 2011 年發表在 VLDB 上的HadoopDB[18,34]研究為代表,在 Apache Hadoop 項目基礎上提出了 Hadapt 研究,它消除數據孤島,在云環境中使用現有的 SQL工具,組織分析大量的“多層結構”數據。耶魯大學計算機科學系研究開發的 Hadapt 的技術,解決了一些在大數據分析需求中的關鍵問題: 數據的加速增長,非結構化數據的爆炸。Hadoop-DB 通過傳統關系數據分析方法分析結構和非結構化數據。

  2011 年發表在 SIGMOD 上的文獻[34]更詳細地介紹了通過MapReduce 框架與數據庫系統的結合,在分步并行執行環境下,設計 HadoopDB 數據引擎,提高數據分析性能,重點分析了連接和聚集操作。結合 Hadoop 作業調度和網絡傳播技術,成功地將單節點數據庫系統轉換為可擴展并行數據庫分析平臺。

  2010 年的 ICDE 和 SIGMOD 以及 2009 年的 VLDB 上發表了 Facebook 研究員關于利用 MapReduce 實現并行數據倉庫的研究成果: Hive[31 -33].它是一個基于 Hadoop 的開源數據倉庫解決方案。如圖 6 所示,Hive 支持的查詢是類似 SQL 方式的陳述語言: HiveQL .這種查詢被編譯進 MapReduce 的 job 用以Hadoop 的執行。而且 HiveQL 允許用戶在查詢中添加“客戶map-Reduce 腳本插件”.這種語言包含了一個“支持包含原語類型的表的”數據結構,例如,列表、棧、集合、映射,以及嵌套組合數據結構。其背后的 I/O 庫可擴展以查詢客戶格式的數據。

  Hive 還包含了一個系統目錄 - 元存儲( Metastore) -包含了“有利于數據挖掘、查詢優化與查詢編譯的”概要模式與統計。

  在 Facebook,Hive 數據倉庫包含了數萬張表,共存儲超過 700TB的數據。廣泛地用于用戶的報告和即時分析。在 2011 年的 ICDE 上,Facebook 研究員發表了 RCFile 一種基于 MapReduce 的數據倉庫的快速且存儲高效的數據放置結構[38],文章提出一個大的數據布局結構,稱為 RCFile( 面向記錄的列存儲文件系統) ,如圖 3 所示。

  并在 Hadoop 平臺上實施。通過密集的實驗,文章顯示的RCFile 有效性滿足四個要求: ( 1) 數據導入快; ( 2) 查詢處理快; ( 3) 存儲空間利用率高效; ( 4) 對于高度動態的工作量方式要有強大的適應力。RCFile 與行存儲比較了數據導入速度和工作量的適應力。RCFile 在表掃描通過避免沒必要列值讀取來優化讀取,在大多數情況下優于其他結構。RCFile 是基于列存儲的壓縮,因此,有很高的空間利用率。RCFile 已是 Facebook 的數據倉庫系統默認選項,也已應用于由 Facebook 和雅虎開發的數據分析系統 Hive 中。

  2011 年 SIGMOD 上發表了新加坡國立大學黃銘鈞教授和浙江大學陳純教授的借助列存儲技術實現 MapReduce 框架下可擴展連接處理論文[35].設計了 Llama 這個在 MapReduce 框架下的列存儲的數據管理原型系統,在底層使用一個創新的文件存儲格式: CFiles,如圖 4 所示。在 CFile,每個塊包含固定數量的記錄,稱為 K 值。每個邏輯塊的多少 n 不同,因為記錄大小可變的。塊存儲在緩沖區。緩沖區的大小通常為 1 MB.當緩沖區大小超出閾值或緩沖區中的記錄數達到 k 個 ,緩沖區刷新到 DFS.每塊的起始偏移量被記錄下來。使用大塊 chunk 代表在文件系統的分區單位。在 HDFS 中的每個文件是切成塊,每大塊 chunk 在不同的數據節點復制。在 HDFS,默認 chunk 大小為 64 MB.chunk 包含多個塊,由記錄 k 的值和每個記錄的大小而定。

  文獻里還設計了并發連接,如圖 5 所示,將盡可能多的連接操作放在 MapReduce 框架 map 階段,通過 Llama 系統構建,實現了對大數據的快速查詢,并發連接初衷是將盡可能多的連接操作放在 MapReduce 框架 map 階段。基本思想是利用濃密的查詢計劃樹和排序 PF 組,解決 MapReduce 任務中的多表連接問題,避免重排昂貴的數據復制和減少 MapReduce 任務數。該算法可以減輕在 HDFS 的 NameNode 節點保持大量的中間結果的壓力。此外,設計了數據物化和并發連接成本模型來分析數據訪問成本,從而對模型進行細節優化。

  2011 年 VLDB 上發表了威斯康星麥迪遜大學和 IBM 研究員聯合研發的基于列存儲技術的 MapReduce 框架論文[36],利用列存儲技術對 DREMEL[25]的改進: 1) 將復雜類型作為一個單獨的列存儲,而不是像 DREMEL,將其分解到不同的列中; 2) 系統可以處理在 DREMEL 里無法處理 map 數據類型; 3) 重點是在 Hadoop 的 Java 的背景下對性能改善。首先,介紹列存儲格式兼容 Hadoop 復制和調度約束機制,如圖 6 所示,證明列存儲格式在實際工作負載條件下能加快 MapReduce 任務處理速度;其次、研究如何處理列存儲遇到的復雜的數據類型,例如: 數組類型、MAP 類型和嵌套記錄類型。這些都是 MapReduce 里常見最后,文章引入跳躍列表列存儲格式,如圖 7 所示,和 lazy記錄的構建算法,以避免不需要的記錄做反序列化實驗采用從IBM 研究中心 Intranet 上抓取的真實數據,實驗顯示列存儲技術可以在 Hadoop Map 階段實現高達兩個數量級性能提升。

  2011 年 SIGMOD 上發表了 Teradata 研究員和加州大學合作的基于 Hadoop 的并行數據倉庫加載方法[37]論文。使用 Hadoop來作為中間加載服務器存儲將要加載到 Teradata 企業級數據倉庫的數據。從 HDFS( Hadoop 分布式文件系統) 獲得了諸多優點: 1) 為要加載的文件的磁盤空間顯著增加; 2) 一旦數據被寫入到 HDFS,它是沒有必要保存數據源的數據,甚至被加載到Teradata 企業級數據倉庫之前的文件; 3) MapReduce 程序可用于改造和添加非結構化或半結構化數據結構; 4) 因為文件分布在 HDFS 中,所以系統可以更迅速地并行加載到 Teradata 企業級數據倉庫中。當 Hadoop 和 Teradata 企業級數據倉庫共存在同一硬件上平臺,由于減少了硬件和系統管理成本,正越來越多地受到客戶的青睞; 5) 另一個優化方法是將 HDFS 數據塊相同的節點上直接加載到 Teradata 的并行節點上。由于 HDFS 固有的非均勻數據分布特性,文章很難避免 HDFS 塊轉移到偏遠的Teradata 節點。因此,文章設計了一個多項式時間最優算法和多項式時間近似優化算法,HDFS 塊均勻分配到并行的 Teradata節點,并最大限度地減少了網絡流量。

  在國內對于大數據分析應用和 MapReduce 與數據庫技術相結合技術研究,相對起步較晚。中國人民大學的覃雄派等發表了“大數據分析---RDBMS 與 MapReduce 的競爭與共生”[40]一文,指出面對大數據深度分析的挑戰,關系數據庫技術的擴展性遇到了前所未有的困難。同時,SQL 的表達能力不足以進行復雜深入的數據分析。MapReduce 技術具有簡潔的模型、良好的擴展性、容錯性和并行性,高性能。關系數據庫技術和 Ma-pReduce 技術相互競爭、相互學習和相互滲透,促進了數據分析新生態系統的浮現。在新生態系統中,關系數據庫技術和 Ma-pReduce 技術找到了自己的位置,發揮出各自的優勢,從大數據中分析和發現有用的知識。關系數據庫和 MapReduce 技術各有優缺點,如何融合關系數據庫和 MapReduce 技術,設計同時具備兩者優點的技術架構,既有 MapReduce 的高度擴展性和容錯性,又有 RDBMS 的高性能,是大數據分析技術的研究趨勢。

  東北大學于戈等[41]提出了基于 MapReduce 的關系型數據倉庫并行查詢方法,并設計了基于 MapReduce 的分布式關系數據庫: ChunkDB.南京郵電大學李玲娟等[42]提出了基于 MapRe-duce 的頻繁項集挖掘方法,在數據挖掘里獲得較好的時效性。

  王婧等[43]在Hadoop 基礎上提出了一種基于過濾器的多表連接算法,減少不必要的元組復制與數據傳輸。在國內并行數據庫研究方面,2000 年,中國人民大學文繼榮等在文獻[39]上分析了并行數據庫系統的查詢優化技術。

  該文介紹作者自行研制的一個 Shared-nothing 并行數據庫系統PBASE /2 中獨特的兩階段優化策略。為了縮減并行查詢優化龐大的搜索空間,PBASE/2 將并行查詢優化劃分為順序優化和并行化兩個階段。在順序優化階段對并行化后的通信代價進行預先估算,將通信開銷加入順序優化的代價模型,同時對動態規劃搜索算法進行了修正和擴展,保證了順序優化階段得到的最小代價計劃在并行化后代價仍然最小。并行化階段的優化目標是實現查詢工作量在系統內多種資源上的負載平衡,提出了資源負載平衡因子的概念,并且通過啟發式規則、任務調度等機制保證了并行查詢執行計劃的優化性。

  2 結 語

  通過以上分析可以看出,當數據集和索引變大時,傳統關系型數據庫在對大規模數據進行操作會造成系統性能嚴重下降,因為在處理數據時 SQL 請求會占用大量的 CPU 周期,并且會導致大量的磁盤讀寫,性能會變慢得讓人無法忍受。

  隨著對 MapReduce 并行計算技術研究的深入和 SMP、MPP等處理機技術的發展,MapReduce 分布式并行處理集群已經成為了大數據研究中最受關注的熱點。目前,MapReduce 與關系數據庫技術相結合領域主要有下列問題需要進一步地研究和解決。

  ( 1) 并行體系結構及系統的物理設計

  為了達到并行處理的目的,參與并行處理的各個處理節點之間是否要共享資源、共享哪些資源、需要多大程度的共享,這些就需要研究并行處理的體系結構及有關實現技術。主要是在并行處理的環境下,大數據分布的算法的研究、數據庫設計工具與管理工具的研究。特別是列存儲技術在并行環境下實現的研究。

  ( 2) 非關系型數據庫

  非關系型數據庫以鍵值對存儲,它的結構不固定,每一個元組可以有不一樣的字段,每個元組可以根據需要增加一些自己的鍵值對,這樣就適用大數據中的半結構和非結構化數據,但它的結構不便于表與表之間進行連接等操作,這是當前國內外此項研究的難點之一。

  ( 3) 處理節點間通信機制的研究

  為了實現并行的高性能,并行處理節點要最大程度地協同處理數據庫事務,因此,節點間必不可少地存在通信問題,如何支持大量節點之間消息和數據的高效通信,也成為了并行數據庫系統中一個重要的研究課題。

  ( 4) 并行操作算法

  為提高并行處理的效率,需要在數據分布并行的研究的基礎上,深入研究傳統的連接、聚集、統計、排序等具體的數據操作在 MapReduce 節點上的并行操作算法。這是當前國內外此項研究的熱點之一。

  ( 5) 并行操作的查詢優化問題

  為獲得高性能,如何將一個數據庫處理物理執行合理地分解成相對獨立的并行操作步驟、如何將這些步驟以最優的方式在多個處理節點間進行分配、如何在多個處理節點的同一個步驟和不同步驟之間進行消息和數據的同步,這些問題都值得深入研究。

  ( 6) 數據的加載和再組織技術

  為了保證高性能和高可用性,系統中的處理節點可能需要進行擴充,這就需要考慮如何將傳統 RDBMS 的數據加載方法高效地移植到 MapReduce 框架中來,以及如何合理地在各個節點是重新組織數據。

  綜上所述,關系數據庫和 MapReduce 非關系型數據庫技術相融合研究是數據科學、數據工程領域的研究趨勢,我國相關研究工作還處于起步階段,國外的研究工作中也有很多關鍵問題有待解決。當前,國內外關于大數據 MapReduce 框架下的處理研究還主要是集中在框架協議的設計方面[5 -43],還沒有一套完整的解決方案和相關的國際標準系統可以采用。

  參 考 文 獻

  [1] Dean J,Ghemawat S. MapReduce: Simplified Data Processing on LargeClusters[C]/ / Proc of 6th OSDI. San Francisco: USENIX Association,2004: 137-150.

  [2] Dean J,Ghemawat S. Experiences with MapReduce: an abstraction forlarge scale computation[C]/ / Proc 15th Inter-Conf on PACT. Washing-ton DC,2006: 1-2.

  [3] Dean J,Ghemawat S. MapReduce: a flexible data processing tool[J].Communications of the ACM,2010,53: 72-77.

  [4] DeWitt D J,Gerber R H,Graefe G,et al. GAMMA-A High PerformanceDataflow Database Machine[C]/ / VLDB '86,1986: 228-237.

  [5] Fushimi S,Kitsuregawa M,Tanaka H. An Overview of The System Soft-ware of A Parallel Relational Database Machine[C]/ / VLDB '86,1986: 209-219.

對應分類:
版權所有:上海論文網專業權威的論文代寫、論文發表的網站,秉承信譽至上、用戶為首的服務理念,服務好每一位客戶
本站部分論文收集于網絡,如有不慎侵犯您的權益,請您及時致電或寫信告知,我們將第一時間處理,郵箱:shlunwen@163.com
ibb娱乐彩票
<meter id="7xttx"></meter>
  1. <code id="7xttx"><delect id="7xttx"><p id="7xttx"></p></delect></code>
  2. <acronym id="7xttx"></acronym>

    <address id="7xttx"></address>
    莆田市| 松阳县| 合肥市| 竹山县| 平度市| 黄山市| 武川县| 德格县| 宁蒗| 逊克县| 衡阳市| 兴业县| 西昌市| 尉氏县| 鸡东县| 阜城县| 阜康市| 云安县|