大數據計算新貴SPARK在騰訊雅虎優酷成功應用分析

發表時間：2019-07-30 16:52:38

文章來源：沈陽軟件開發

標簽：網站建設小程序開發小程序制作微信小程序開發公眾號開發微信公眾號開發網頁設計網站優化網站排名網站設計微信小程序設計小程序定制微信小程序定制

瀏覽次數：0

Park是Apache的頂級開源項目。有關項目主頁，請參閱http://spark.apache.org。迭代計算，交互式查詢計算和批量流量計算等相關子項目，如Shark，Spark Streaming，MLbase，GraphX，SparkR等。自13年以來，Spark一直舉辦自己的Spark Summit會議，會議地址為http://spark-summit.org。 Amplab Labs已經建立了一個獨立的公司Databricks，以支持Spark的開發。

為了滿足挖掘分析和交互式實時查詢的計算需求，騰訊大數據使用Spark平臺支持挖掘分析計算，交互式實時查詢計算以及允許誤差范圍的快速查詢計算。目前，騰訊大數據已超過200個單位。 Spark集群并獨立維護Spark和Shark分支。 Spark集群已經穩定運行了2年。我們積累了大量的案例和運營經驗能力。此外，多種服務的大數據查詢和分析應用程序已在線且穩定。在SQL查詢性能方面，它通常比MapReduce高2倍多。使用內存計算和內存表功能，性能至少是10倍。在迭代計算和挖掘分析中，強烈建議將小時和日級模型訓練轉換為Spark的分鐘級訓練，而簡單的編程接口使得算法實現在時間成本和代碼大小方面遠高于MR。

Spark VS MapReduce

盡管MapReduce適用于大多數批處理，并且是大數據時代企業大數據處理的首選技術，但由于以下限制，它在某些情況下并非最佳：

缺乏對迭代計算和DAG操作的支持。隨機處理多種類別和著陸，MR之間的數據需要落入Hdfs文件系統

在許多方面，Spark彌補了MapReduce的缺點，MapReduce優于MapReduce，更有效的迭代操作和更低的作業延遲。它的主要優點包括：

為支持DAG圖的分布式并行計算提供一組編程框架。減少多次計算之間的開銷。寫入Hdfs的開銷提供了一種Cache機制來支持IO，這需要迭代迭代或多個數據共享來減少數據讀取。 Overhead使用多線程池模型來減少task匯海的打開，避免在shuffle期間進行不必要的排序操作，并減少磁盤IO操作。廣泛的數據集操作類型

由于其設計約束，MapReduce僅適用于離線計算。實時查詢和迭代計算仍然存在很大的不足。隨著業務的發展，業界對實時查詢和迭代分析的需求更多，僅依靠MapReduce。該框架不再能夠滿足業務需求。由于其可擴展性，基于內存的計算等，Spark可以直接在Hadoop上以任何格式讀寫數據，并成為滿足業務需求的最佳候選者。

應用Spark的成功故事

目前，大數據主要用于互聯網公司的廣告，報告，推薦系統和其他服務。在廣告業務中，需要大數據進行應用分析，效果分析，定位優化等。在推薦系統中，需要大數據優化相關排名，個性化推薦和熱點點擊分析。

這些應用場景的一般特征是大的計算復雜性和高效率要求。 Spark滿足了這些要求，該項目得到了開源社區的廣泛關注和贊譽。在過去兩年中，它已發展成為大數據處理領域最受歡迎的開源項目。

本章將列出在國內外應用Spark的成功案例。

1.騰訊

Wide Point是最早使用Spark的應用程序之一。騰訊大數據精確推薦具有Spark快速迭代的優勢，圍繞“數據+算法+系統”技術解決方案，實現“數據實時采集，算法實時訓練，系統實時預測”全程處理并行高維算法，最后，它成功應用于廣泛的pCTR傳送系統，支持數百億的日常請求。

基于日志數據，快速查詢系統服務建立在Spark上。 Shark利用其快速查詢和內存表來進行日志數據的即席查詢。在性能方面，它通常比Hive高2-10倍。如果使用內存表的功能，性能將比Hive快100倍。

2.雅虎

雅虎在Audience Expansion中將Spark用于應用程序。受眾群體擴展是廣告客戶找到目標用戶的一種方式：首先，廣告客戶提供觀看廣告和購買產品的樣本客戶，并學習如何找到更多潛在用戶并定位他們。雅虎使用的算法是邏輯回歸。同時，由于某些SQL工作負載需要更高的服務質量，因此添加了專門用于Shark的大型內存集群來替換商業BI/OLAP工具，進行報表/儀表板和交互式/即席查詢，同時與桌面BI工具對接。目前在雅虎部署的Spark集群有112個節點和9.2TB的內存。

3.淘寶

阿里搜索和廣告業務，最初使用Mahout或自編MR來解決復雜的機器學習，導致效率低下且代碼不易保護。淘寶技術團隊使用Spark來解決具有高計算復雜度的多次迭代和算法的機器學習算法。將Spark應用于淘寶的推薦相關算法，它也解決了Graphx的許多生產問題，包括以下計算場景：基于度分布的中心節點發現，基于最大連通圖的社區發現，基于三角計數的關系測量，基于用戶隨機游走的屬性傳播等。

4.優酷土豆

優酷在使用Hadoop集群時遇到的突出問題包括：首先是BI，分析師需要等待很長時間才能在提交任務后獲得結果;二是大數據的計算，例如在進行一些模擬廣告時，計算量非常大，效率要求也比較高。最后，機器學習和圖形計算的迭代操作也需要大量資源并且非常慢。

最后，這些應用場景不適合在MapReduce中處理。相比之下，發現Spark性能比MapReduce好得多。首先，交互式查詢響應速度快，性能比Hadoop高幾倍;模擬廣告投放計算效率高，延遲小（與hadoop相比，順序減少至少一個數量級）;機器學習和圖形計算等迭代計算大大減少了網絡傳輸和數據。登陸等，大大提高了計算性能。目前，Spark廣泛使用了優酷土豆的視頻推薦（圖形計算）和廣告業務。

網站建設,小程序開發,小程序制作,微信小程序開發,公眾號開發,微信公眾號開發,網頁設計,網站優化,網站排名,網站設計,微信小程序設計,小程序定制,微信小程序定制

97无码免费人妻超级碰碰夜夜_xxx.www国产_av激情在线_成人久久18_国产精品特级片_鲁一鲁啪一啪

大數據計算新貴SPARK在騰訊雅虎優酷成功應用分析

相關案例查看更多