2018-5-31
深度學習(Deep Learning),近年來幾乎火遍了各領域,似乎所有的行業或領域只要和它扯上半點關系,瞬間就能高大上起來。在短短的幾年時間里,深度學習野蠻生長顛覆了語音識別、圖像分類、文本理解等眾多領域的算法設計思路,漸漸形成了一種從訓練數據出發,經過一個端到端(end-to-end)的模型,然后直接輸出得到最終結果的一種新模式。這不僅讓一切變得更加簡單,而且由于深度學習中的每一層都可以為了最終的任務來調整自己,最終實現了各層之間的通力合作,因而大大提高了任務的準確度。
隨著大數據時代的到來以及GPU等各種更加強大的計算設備的發展,深度學習更是如虎添翼,已經進化到可以充分利用各種海量數據(標注數據、弱標注數據或者僅僅數據本身),完全自動地學習到抽象的知識表達,即把原始數據濃縮成某種知識的程度。
那么,問題來了,深度學習從入門到熟練到底需要多長時間?簡單來說,如果僅僅是想要熟悉基本深度學習框架(caffe,tensorflow 等)的操作,你需要熟悉了解 shell 命令,python 等編程語言,甚至需要了解 linux 系統,需要了解這些框架安裝之前的依賴庫等。
不過,如果不懂 linux,不會 shell,那么深度學習的入門豈不是成了一紙空談?事實上并非如此,今天我們就來介紹一款由容天技術人員不懈努力歷經一年時間打造的人工智能大數據平臺軟件“RT-Brian”。RT-Brian 也可稱為具有深度學習功能的集群管理軟件,此軟件采用全中文網頁界面,把所有深度學習框架使用命令集成為網頁上的一個按鈕,使用方法極其簡易,適合用于 AI 業務的集群、數據中心。搭配完整的 GPU 硬件解決方案,可在短時間內幫助客戶完成深度學習的入門、訓練、識別任務。
平臺架構
+
第一層:硬件層
支持 X86、Power 和 ARM 等異構平臺,不僅可以支持在不同平臺上安裝部署,還可以支持 CPU、GPU、FPGA 和 ASIC,以及 TPU、DPU 等專用深度學習芯片的異構平臺集群。支持不對稱的計算節點,可以根據不同節點的計算能力分配作業,從而有利于支持設備利舊,保護已有投資。平臺便于在云平臺上部署,方便客戶提供云服務。
第二層:集群層
提供分布式文件系統及分布式應用框架如 HADOOP、SPARK;結合高性能計算,提供并行計算和計算數學庫。
第三層:AI 層
融合了基于神經網絡的深度學習平臺和基于智能計算的機器學習平臺,整合多種深度學習框架以及機器學習相關支持庫,提供統一的對外接口。
第四層:平臺層
以統一平臺的方式對外提供深度學習相關功能,包括UI界面方式和服務模式兩種。既有基于瀏覽器的人機接口,也可提供基于WebService的云服務接口,可以支持在移動終端下使用。
第五層:應用層
提供支持用戶自定義的企業級應用模塊,可以方便快捷地開發單獨的機器學習應用或者與企業現有系統整合,實現快速應用部署和業務實現。提供結合行業應用的成熟方案和模型,方便用戶在短時間內與業務進行結合。
平臺部署結構圖
+
RT-BRAIN 通過 RTNN 進行部署,既可以部署在獨立的數據中心集中管理,也可以布置在實驗室等辦公環境,方便客戶充分利用老舊設備,在網絡搭建設計上,也與高性能計算集群網絡類似,一般包括管理網絡、業務網絡和計算網絡。
① 管理網絡:主要是用于前期部署和后期管理硬件設備的,對數據帶寬要求不高,所以建議使用千兆交換網絡。
② 計算網絡:主要用于訓練過程中的數據交換,建議使用 56 GB 以上的 IB 網絡,確保數據并行的 IO 不成為瓶頸。
③ 業務網絡:主要是用于訓練數據的上傳和模型的下載等工作,所以對帶寬有一定的要求,建議使用萬兆網絡,也可以與管理網絡共享使用千兆網絡,或者與計算網絡共享 56 GB 以上的 IB 網絡。
+
RT-Brain 更新至今,完全按照一切操作流程簡易,以算法為最基礎核心的理念,把各個模塊統一,自部署安裝到數據訓練一直到識別,一切從簡,具體功能說明如下:
+
無論單機版本還是集群版本,只需知道 IP 地址和 root 密碼,一鍵完成部署?!?/span>
+
內置多種目前流行深度學習框架,包含圖像識別與語音識別兩種,鼠標點擊跳轉即用?!?/span>
+
可自主上傳算法模型和訓練程序,超參方面設置枚舉、隨機、TPE、貝葉斯四種方式可供挑選出最優超參?!?/span>
+
嵌入 JupyterNotebook,可幫助用戶實現代碼方面的應用及研究?!?/span>
+
可分別對單機中的 CPU、GPU、硬盤、內存以及集群中各個節點進行監控,實時掌握各模塊狀態?!?/span>
RT-Brain 對于初級用戶來說可能只是一個入門工具,對于已經精通的人群帶來的特性是可以節省大量時間專注于算法。