商業 培訓 Data Science 是針對幾組人的。首先,它是針對企業本身的人的。那些將與統計學家和數據分析師(數據科學家,或有時在波蘭被稱為“數據大師”)合作的人。很多時候,這些人會管理專注於業務數據分析的專案,或者會投資數據科學企業。除了這個小組之外,該培訓還面向那些將實施專注於數據分析的解決方案的人。對於這些人來說,這是關於提供一個與企業相互理解的平臺,而企業對實施本身的細節不是很感興趣。當然,第三組不應該被遺忘。關於那些渴望成為數據大師的人。
訓練不是演算法訓練。它也不是在特定的大數據系統中進行培訓。單獨的培訓課程專門針對這些主題,但如果沒有某些基本概念和原則性原則的知識,數據科學 專案 就註定要提前失敗。由於技術的發展非常快,它往往模糊了應該構建解決方案的基礎,企業可以有效地使用這些解決方案。
培訓不需要統計領域的複雜專業知識。當然,您應該意識到這樣一個事實,即就其本質而言,培訓期間提供的材料在某種程度上是技術性的。培訓的目的是使參與者能夠對 數據科學有有意義的理解,而不僅僅是對該領域的一般介紹。儘管有這個相當雄心勃勃的目標,但數學儀器被限制在絕對必要的最低限度。一般來說,培訓包含理解和構建先進的、基於 數據的 業務問題解決方案所需的一切。
數據科學 是一個新概念,它在很大程度上刷新了統計學的形象,尤其是商業分析,在人們的普遍理解中。暢銷書 《信號與噪音》(The Signal and the Noise) 的作者內特·西爾弗(Nate Silver)說,這允許對統計學家的職業進行更“性感”的描述。業務分析也是如此。假設業務分析師沒有注意到技術的進步並且不會隨著時間的推移而發展,這是完全不合理的。出於廣告目的,像數據科學這樣在很大程度上是多餘的術語非常有用,但讓我們記住,商業分析師和統計學家長期以來一直在處理當今變得如此流行的問題,這主要是由於技術的進步。
業務數據分析邏輯
1.1 數據使用的普遍性
1.2 兩個例子——颶風和客戶行為
1.3 數據科學、工程和數據驅動決策
1.4 數據處理和“Big Data”
1.5 Big Data 1.0 至 Big Data 2.0
1.6 作為戰略資產的數據和數據分析
1.7 數據分析邏輯 – 總結
使用數據科學的業務問題和解決方案
2.1 從業務問題到數據挖掘
2.2 監督和無監督方法
2.3 數據挖掘及其結果
2.4 管理數據科學企業的後果
2.5 分析技術與技術
2.6 小結
預測建模 - 從相關性到監督分割
3.1 模型、歸納和預測
3.2 監督分割
3.3 可視化結果
3.4 樹作為規則集
3.5 概率估計
3.6 案例研究
3.7 小結
將模型擬合到數據
4.1 使用數學函數進行分類
4.2 回歸
4.3 類概率估計和邏輯“回歸”
4.4 非線性函數
4.5 神經網路
4.6 小結
過擬合以及如何避免過擬合
5.1 泛化
5.2 過擬合
5.3 過擬合問題的分析
5.4 示例
5.5 避免過擬合的技術
5.6 學習曲線
5.7 複雜性控制
5.8 小結
相似性、鄰接性和聚類
6.1 相似性和距離的測量
6.2 鄰域和推理規則
6.3 關鍵技術
6.4 聚類分析
6.5 在解決業務問題中的應用
什麼時候模型好?
7.1 模型評估中使用的分類器
7.2 跨越分類邊界的概括
7.3 分析框架
7.4 使用基本評估技術的實例
7.5 小結
模型可視化
8.1 應用等級
8.2 利潤曲線
8.3 接收機工作特性 (ROC) 曲線和圖形
8.4 ROC曲線下面積
8.5 累積回應
8.6 示例
8.7 小結
證據和概率
9.1 示例 – 以客戶為中心
9.2 概率證據組合
9.3 貝葉斯規則的應用
9.4 構建模型
9.5 模型應用實例
9.6 總結
表示和文本挖掘
10.1 為什麼文本很重要?
10.2 為什麼處理文本很困難?
10.3 表示
10.4 示例
10.5 熵和文本
10.6 這不是一堆話
10.7 消息探索
10.8 總結
分析工程案例研究
其他任務和技術
12.1 共現和關聯
12.2 分析
12.3 關係預測
12.4 信息縮減和選擇
12.5 失真、失真和方差
12.6 案例研究
12.7 小結
商業戰略和數據科學
13.1 Redux
13.2 獲得競爭優勢
13.3 保持優勢
13.4 資源獲取
13.5 新思路與發展
13.6 組織的成熟度