公眾號文章匯總
1078
2025-03-31
2.8.3 Databricks
Databricks是一個基于云的Spark集成工作環境,允許啟動所管理的Spark集群,從S3、關系型數據庫或普通文件的數據源接入數據并進行交互操作,數據源可以在云端,也可以在本地環境中。Databricks平臺使用用戶的AWS賬號創建所需的基礎架構組件,這樣這些服務都屬于用戶自己的AWS賬號。Databricks為AWS上基于云的Spark平臺提供了部署、管理,以及用戶應用間的接口框架。
Databricks根據支持級別、安全性、訪問控制選項、GitHub集成等不同特性,指定了多種定價方案。收費基于訂閱,包括每月的固定費用和按用量收取的使用費(按每個節點每小時計算的費用)。Databricks提供14天的免費試用期,以便用戶上手。使用Databricks平臺部署的Spark集群產生的AWS實例費用需要用戶自負,不過Databricks允許用戶使用更便宜的Spot實例來節省AWS花銷。要想了解最新的定價和訂閱信息,請訪問https://databricks.com/product/pricing。
如圖2.6所示,Databricks提供了簡易的部署方式和用戶界面。它對在AWS上配置安全的Spark環境所涉及的底層基礎架構和安全復雜性進行了抽象。Databricks管理控制臺允許用戶創建筆記本,這與AWS的EMR服務中部署的Zeppelin筆記本類似。Databricks還提供了用于部署和管理的API。這些筆記本會自動關聯用戶的Spark集群,基于Python、Scala、SQL或R語言提供無縫的Spark編程接口。
圖2.6 Databricks控制臺
Databricks中還包含自有的分布式文件系統,叫作Databricks文件系統(Databricks File System,DBFS)。DBFS允許用戶掛載已有的S3存儲桶,以在Spark環境中無縫使用。用戶也可以在工作節點的固態硬盤中緩存數據對訪問進行加速。用戶可以通過這套Spark環境中包含的dbutils庫對DBFS進行配置和交互。
Databricks平臺和管理控制臺可以讓用戶從各種數據源以表的形式創建數據對象,這里的表在概念上和關系型數據庫里的表類似??捎玫臄祿窗ˋWS S3的存儲桶、JDBC數據源、DBFS文件系統,或是使用拖拽功能上傳的本地文件。用戶也可以使用Databricks控制臺創建作業,并根據自定義的時刻表以非交互式的方式運行這些作業。
AMP實驗室創建了Spark項目并繼續成為該項目的主要貢獻者,其中的核心團隊成員創建了Databricks公司,打造出了Databricks平臺。相比其他的發行版(比如CDH或HDP)而言,Databricks平臺一般包含更新版本的Spark和一些新功能。要了解更多關于Databricks的信息,請訪問http://databricks.com。
spark 數據挖掘 Python
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。