資料科學入門教程:回答為什麼需要資料科學,資料科學基礎和過程
資料科學入門教程:回答為什麼需要資料科學,資料科學基礎和過程
什麼是資料科學?
資料科學是一個研究領域,它涉及透過使用各種科學方法、演算法和過程從大量資料中提取見解。它可以幫助您從原始資料中發現隱藏的模式。由於數理統計、資料分析和大資料的發展,資料科學一詞應運而生。
資料科學是一個跨學科領域,可讓您從結構化或非結構化資料中提取知識。資料科學使大家能夠將業務問題轉化為研究專案,然後將其轉化為實用的解決方案。
在這個面向初學者的資料科學教程中,包括以下資料科學基礎知識:
什麼是資料科學?
為什麼是資料科學?
資料科學元件
資料科學過程
資料科學工作角色
資料科學工具
資料科學與 BI(商業智慧)的區別
資料科學的應用
資料科學技術的挑戰
為什麼需要資料科學?
以下是使用資料分析技術的顯著優勢:
資料是當今世界的石油。藉助正確的工具、技術、演算法,我們可以使用資料並將其轉化為獨特的業務優勢
資料科學可以幫助使用先進的機器學習演算法檢測欺詐
它可以幫助您防止任何重大的金錢損失
允許在機器中建立智慧能力
您可以執行情緒分析來衡量客戶品牌忠誠度
幫助做出更好、更快的決策
幫助使用者向合適的客戶推薦合適的產品以提升您的業務
資料科學元件
統計資料:
統計學是資料科學基礎中最關鍵的單元。它是收集和分析大量數值資料以獲得有用見解的方法或科學。
視覺化:
視覺化技術可幫助您以易於理解和消化的視覺效果訪問大量資料。
機器學習:
機器學習探索演算法的構建和研究,這些演算法學習對不可預見的/未來資料進行預測。
深度學習:
深度學習方法是一種新的機器學習研究。
資料科學的流程
資料科學的流程是什麼呢,下面這幅圖可以概括:
發現: 發現步驟涉及從所有已識別的內部和外部來源獲取資料,這有助於您回答業務問題。 資料可以是:
來自網路伺服器的日誌
從社交媒體收集的資料
人口普查資料集
使用 API 從線上來源流式傳輸的資料
準備: 資料可能有很多不一致的地方,例如缺失值、空白列、需要清理的不正確資料格式。需要在建模之前處理、探索和調節資料。資料越乾淨,您的預測就越好。
模型規劃: 在這個階段,需要確定繪製輸入變數之間關係的方法和技巧。模型的規劃是透過使用不同的統計公式和視覺化工具來執行的。 SQL分析服務、R 和 SAS/access 是用於此目的的一些工具。
模型搭建: 在這一步中,實際的模型構建過程開始。在這裡,資料科學家分發用於訓練和測試的資料集。將關聯、分類和聚類等技術應用於訓練資料集。準備好的模型將針對“測試”資料集進行測試。
操作: 在此階段,您將交付帶有報告、程式碼和技術文件的最終基線模型。模型經過全面測試後部署到實時生產環境中。
溝通結果 在此階段,主要發現將傳達給所有利益相關者。這有助於您根據模型的輸入來決定專案的結果是成功還是失敗。
資料科學工作角色
最突出的資料科學家職位是:
資料科學家
資料工程師
資料分析師
統計員
資料架構師
資料管理員
業務分析師
資料/分析經理
現在,在本資料科學教程中,讓我們詳細瞭解每個角色的含義:
資料科學家: 角色:
資料科學家是一名專業人士,他管理大量資料,透過使用各種工具、技術、方法、演算法等來提出令人信服的商業願景。
語言:
R、SAS、Python、SQL、Hive、Matlab、Pig、Spark
資料工程師: 角色:
資料工程師的角色是處理大量資料。他開發、構建、測試和維護大型處理系統和資料庫等架構。
語言:
SQL、Hive、R、SAS、Matlab、Python、Java、Ruby、C++ 和 Perl
資料分析師: 角色:
資料分析師負責挖掘大量資料。他或她將在資料中尋找關係、模式和趨勢。稍後,他或她將提供引人注目的報告和視覺化,以分析資料以做出最可行的業務決策。
語言:
R、Python、HTML、JS、C、C++、SQL
統計員: 角色:
統計學家使用統計理論和方法收集、分析、理解定性和定量資料。
語言:
SQL、R、Matlab、Tableau、Python、Perl、Spark 和 Hive
資料管理員: 角色:
資料管理員應確保所有相關使用者都可以訪問資料庫。他還確保它正確執行並防止駭客入侵。
語言:
Ruby on Rails、SQL、Java、C# 和 Python
業務分析師: 角色:
這個專業需要改進業務流程。他/她作為業務執行團隊和 IT 部門之間的中介。
語言:
SQL、Tableau、Power BI 和 Python
資料科學工具
資料科學與商務智慧的區別
指標
商務智慧
資料科學
洞察力
向後
向前
資料來源
結構化資料,SQL等
結構化及非結構化資料,例如日誌,SQL,NoSQL,或文字等
方法
統計及視覺化
統計,機器學習及圖
著力點
現在和過去
分析及神經語言設計
工具
微軟BI
R,Python等
資料科學的應用
現在在本資料科學教程中,我們將瞭解資料科學的應用:
網際網路搜尋:
谷歌搜尋使用資料科學技術在幾分之一秒內搜尋特定結果
推薦系統:
建立推薦系統。例如,Facebook 上的“推薦朋友”或 YouTube 上的推薦影片,一切都是在資料科學的幫助下完成的。
影象和語音識別:
語音識別系統如 Siri、谷歌助手、Alexa 等執行在資料科學技術上。此外,在資料科學的幫助下,當您上傳與朋友的照片時,Facebook 會識別出您的朋友。
遊戲世界:
EA Sports、索尼、任天堂都在使用資料科學技術。這增強了您的遊戲體驗。現在使用機器學習技術開發遊戲。當您升級到更高級別時,它可以自行更新。
網上價格比較:
PriceRunner、Junglee、Shopzilla 致力於資料科學機制。在這裡,資料是使用 API 從相關網站獲取的。
資料科學技術的挑戰
準確分析需要多種多樣的資訊和資料
沒有足夠的資料科學人才庫
管理層不為資料科學團隊提供財務支援
資料不可用/難以訪問
業務決策者未有效使用資料科學結果
向他人解釋資料科學很困難
隱私問題
缺乏重要的領域專家
如果一個組織非常小,他們就不能擁有資料科學團隊
概括
資料科學是一個研究領域,它涉及透過使用各種科學方法、演算法和過程從大量資料中提取見解。
統計、視覺化、深度學習、機器學習是重要的資料科學概念。
資料科學過程經歷了發現、資料準備、模型規劃、模型構建、操作化、交流結果。
重要的資料科學家工作角色是:1) 資料科學家 2) 資料工程師 3) 資料分析師 4) 統計學家 5) 資料架構師 6) 資料管理員 7) 業務分析師 8) 資料/分析經理。
R、SQL、Python、SaS 是必不可少的資料科學工具。
商業智慧的預測是向後看的,而資料科學的預測是向前看的。
資料科學的重要應用是 1) 網際網路搜尋 2) 推薦系統 3) 影象和語音識別 4) 遊戲世界 5) 線上價格比較。
資訊和資料的多樣性是資料科學技術面臨的最大挑戰。
這學期第二次開《資料科學》這門課,當教師確實是一個教學相長的過程,透過授課加深對資料科學的認識。後臺有很多知友私信我推薦一些參考書目,現在結合資料科學所需知識技能推薦如下:
第1本:《資料科學入門》,這本書是我上課時所選用的教材。這本書翻譯自《Data Science from Scratch》是一本非常好的教材,它帶你由淺入深地用程式碼實現資料科學。
第2本:《機器學習實戰:基於Scikit-Learn、Keras和TensorFlow》第二版,說到這本書,推崇者很多。在youtube上面甚至有一個哥們專門做了個影片來推薦。可見是有多麼好啦。
第3本:《阿里雲天池大賽賽題解析》,這本書從參加競賽的角度,以賽題為藍本,賽題均來自阿里雲天池的真實業務場景,由具有豐富實戰經驗的大賽優秀選手精心完成。這本書透過解析優秀選手的解題思路,總結了大賽可複製的套路。關於這本書,網上褒貶不一。對於這本書,我的建議是,可以適當地看一看,當作參考,畢竟實踐是檢驗真理的唯一標準。
當然,參考書是其中一個方面。現在網上的各種資源也非常多。可以跟的網課也多。下面整理一些比較好的網課,希望對大家有用。
林軒田機器學習基石。這裡不放連結了,網上可以找的到他的影片。網上很多人推薦加州理工學院的
Learning from data
。其實林軒田的課程可以作為這門課的一個翻譯版本,對國人來講更友好一些。這兩門課參考的是同一本書。就是Learning from Data。
吳恩達的機器學習。吳恩達的機器學習其實是兩門課,一門是Cousera上的
Machine learning
,另一門是斯坦福大學的課程
CS229:Machine Learning
。兩門課程有些許區別,第一門課數學概念要少一些,第二門課要稍難一些。可以根據需要來看。一般認真學完這門課的人都對其有較高的評價、
課不在多,在精。我在講課的過程中也發現,有很多同學不夠專注。其實選一門課程真的學精通的話,完全可以對資料科學及機器學習有較深的認識。所以這裡不放太多推薦了,大家根據自已的要求選一個適合自己的課程或圖書來認真學習就是了。相信你會有所收穫。
Reference
D
ata Science Tutorial for Beginners: What is, Basics & Process
Photo by
Aleks Dorohovich
on
Unsplash