Course Code: bdbiga
Duration: 35 hours
Prerequisites:

  • 對政府領域的基本業務操作和數據系統有基本瞭解
  • 對SQL/Oracle或關係數據庫有基本理解
  • 對統計學有基本理解(電子表格水平)

Overview:

技術進步和信息量的增加正在改變許多行業的業務模式,包括政府機構。由於移動設備和應用、智能傳感器和設備、雲計算解決方案以及面向公民的門戶的快速增長,政府數據生成和數字存檔率正在上升。隨着數字信息的擴展和複雜化,信息管理、處理、存儲、安全和處置也變得更加複雜。新的捕獲、搜索、發現和分析工具正在幫助組織從其非結構化數據中獲得洞察。政府市場正處於一個轉折點,意識到信息是一種戰略資產,政府需要保護、利用和分析結構化和非結構化信息,以更好地服務和滿足任務需求。隨着政府領導者努力發展數據驅動的組織以成功完成任務,他們正在爲跨事件、人員、流程和信息的依賴關係奠定基礎。

高價值的政府解決方案將由最具顛覆性的技術組合而成:

  • 移動設備和應用
  • 雲服務
  • 社交商業技術和網絡
  • 大數據和分析

大數據是智能行業解決方案之一,它使政府能夠通過分析大量數據(相關和不相關、結構化和非結構化)揭示的模式來做出更好的決策。

但實現這些成就遠不止簡單地積累大量數據。白宮科技政策辦公室的Tom Kalil和Fen Zhao在OSTP博客的一篇文章中寫道:“理解這些大數據量需要尖端工具和技術,能夠從大量和多樣化的信息流中分析和提取有用的知識。”

白宮在2012年設立了國家大數據研究與開發計劃,朝着幫助機構找到這些技術邁出了一步。該計劃包括超過2億美元,以充分利用大數據的爆炸式增長及其分析工具。

大數據帶來的挑戰幾乎與其承諾一樣令人望而生畏。高效存儲數據是這些挑戰之一。預算總是緊張的,因此機構必須最大限度地降低每兆字節的存儲成本,並確保數據易於訪問,以便用戶能夠在需要時獲取數據。備份大量數據進一步加劇了這一挑戰。

有效分析數據是另一個主要挑戰。許多機構採用商業工具,使他們能夠篩選大量數據,發現有助於提高運營效率的趨勢。(MeriTalk最近的一項研究發現,聯邦IT高管認爲大數據可以幫助機構節省超過5000億美元,同時還能實現任務目標。)

定製開發的大數據工具也允許機構滿足分析數據的需求。例如,橡樹嶺國家實驗室的計算數據分析組已將其Piranha數據分析系統提供給其他機構。該系統幫助醫學研究人員找到了一種可以在主動脈瘤發作前提醒醫生的鏈接。它還用於更平凡的任務,例如篩選簡歷以將求職者與招聘經理聯繫起來。

Course Outline:

每節課2小時

第1天:第1節:政府機構爲何需要大數據商業智能的業務概述

  • 來自NIH、DoE的案例研究
  • 政府機構的大數據採用率及如何圍繞大數據預測分析調整未來運營
  • 在DoD、NSA、IRS、USDA等領域的廣泛應用
  • 大數據與遺留數據的接口
  • 預測分析中使能技術的基本理解
  • 數據集成與儀表板可視化
  • 欺詐管理
  • 業務規則/欺詐檢測生成
  • 威脅檢測與畫像
  • 大數據實施的成本效益分析

第1天:第2節:大數據介紹-1

  • 大數據的主要特徵——量、多樣性、速度和真實性。用於處理大容量的MPP架構。
  • 數據倉庫——靜態模式,緩慢演進的數據集
  • MPP數據庫如Greenplum、Exadata、Teradata、Netezza、Vertica等
  • 基於Hadoop的解決方案——對數據集結構無要求
  • 典型模式:HDFS、MapReduce(處理)、從HDFS檢索
  • 批處理——適合分析/非交互式任務
  • 流數據:CEP流數據
  • 典型選擇——CEP產品(如Infostreams、Apama、MarkLogic等)
  • 不太成熟的產品——Storm/S4
  • NoSQL數據庫——(列式和鍵值):最適合作爲數據倉庫/數據庫的分析輔助工具

第1天:第3節:大數據介紹-2

NoSQL解決方案

  • KV存儲 - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database(OnDB)
  • KV存儲 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV存儲(分層) - GT.m、Cache
  • KV存儲(有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV緩存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元組存儲 - Gigaspaces、Coord、Apache River
  • 對象數據庫 - ZopeDB、DB40、Shoal
  • 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 寬列存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

數據多樣性:大數據中的數據清理問題介紹

  • RDBMS——靜態結構/模式,不支持敏捷、探索性環境。
  • NoSQL——半結構化,在存儲數據之前有足夠的結構來存儲數據,而無需精確的模式
  • 數據清理問題

第1天:第4節:大數據介紹-3:Hadoop

  • 何時選擇Hadoop?
  • 結構化數據——企業數據倉庫/數據庫可以存儲大量數據(但成本較高),並強加結構(不利於主動探索)
  • 半結構化數據——傳統解決方案(DW/DB)難以處理
  • 數據倉庫化=巨大的努力,即使在實施後也是靜態的
  • 對於數據多樣性和大容量,在廉價硬件上進行處理——HADOOP
  • 創建Hadoop集羣所需的廉價硬件

Map Reduce /HDFS介紹

  • MapReduce——在多臺服務器上分佈式計算
  • HDFS——使數據在計算過程中本地可用(具有冗餘)
  • 數據——可以是非結構化/無模式的(與RDBMS不同)
  • 開發人員負責理解數據
  • 編程MapReduce=使用Java(優缺點),手動將數據加載到HDFS

第2天:第1節:大數據生態系統——構建大數據ETL:大數據工具的宇宙——何時使用哪種工具?

  • Hadoop與其他NoSQL解決方案的比較
  • 對於交互式、隨機訪問數據
  • 在Hadoop上使用Hbase(列式數據庫)
  • 隨機訪問數據,但有最大1 PB的限制
  • 不適合臨時分析,適合日誌記錄、計數、時間序列
  • Sqoop - 從數據庫導入到Hive或HDFS(JDBC/ODBC訪問)
  • Flume——將數據流(如日誌數據)導入HDFS

第2天:第2節:大數據管理系統

  • 移動部件,計算節點啓動/失敗:ZooKeeper——用於配置/協調/命名服務
  • 複雜管道/工作流:Oozie——管理工作流、依賴關係、鏈式任務
  • 部署、配置、集羣管理、升級等(系統管理員):Ambari
  • 在雲中:Whirr

第2天:第3節:商業智能中的預測分析-1:基本技術與基於機器學習的BI:

  • 機器學習介紹
  • 學習分類技術
  • 貝葉斯預測——準備訓練文件
  • 支持向量機
  • KNN p-Tree代數與垂直挖掘
  • 神經網絡
  • 大數據大變量問題——隨機森林(RF)
  • 大數據自動化問題——多模型集成RF
  • 通過Soft10-M實現自動化
  • 文本分析工具——Treeminer
  • 敏捷學習
  • 基於代理的學習
  • 分佈式學習
  • 預測分析的開源工具介紹:R、Rapidminer、Mahut

第2天:第4節預測分析生態系統-2:政府中常見的預測分析問題

  • 洞察分析
  • 可視化分析
  • 結構化預測分析
  • 非結構化預測分析
  • 威脅/欺詐/供應商畫像
  • 推薦引擎
  • 模式檢測
  • 規則/場景發現——失敗、欺詐、優化
  • 根本原因發現
  • 情感分析
  • CRM分析
  • 網絡分析
  • 文本分析
  • 技術輔助審查
  • 欺詐分析
  • 即時分析

第3天:第1節:即時和可擴展的Hadoop分析

  • 爲什麼常見的分析算法在Hadoop/HDFS中失敗
  • Apache Hama——用於批量同步分佈式計算
  • Apache SPARK——用於即時分析的集羣計算
  • CMU Graphics Lab2——基於圖的異步分佈式計算方法
  • KNN p-Tree代數方法,來自Treeminer,用於降低硬件操作成本

第3天:第2節:電子發現和取證工具

  • 大數據與遺留數據的電子發現比較——成本與性能的比較
  • 預測編碼和技術輔助審查(TAR)
  • 演示TAR產品(vMiner),瞭解TAR如何加快發現速度
  • 通過HDFS加快索引速度——數據的速度
  • NLP或自然語言處理——各種技術和開源產品
  • 外語電子發現——外語處理技術

第3天:第3節:大數據BI在網絡安全中的應用——理解從快速數據收集到威脅識別的360度視圖

  • 理解安全分析的基礎——攻擊面、安全配置錯誤、主機防禦
  • 網絡基礎設施/大數據管道/即時分析響應ETL
  • 規定性 vs 預測性——基於固定規則 vs 從元數據中自動發現威脅規則

第3天:第4節:大數據在USDA中的應用:農業中的應用

  • 農業中的物聯網(IoT)介紹——基於傳感器的大數據和控制
  • 衛星成像及其在農業中的應用介紹
  • 整合傳感器和圖像數據,用於土壤肥力、種植建議和預測
  • 農業保險與大數據
  • 作物損失預測

第4天:第1節:政府中的大數據BI欺詐預防——欺詐分析:

  • 欺詐分析的基本分類——基於規則 vs 預測分析
  • 監督 vs 無監督機器學習用於欺詐模式檢測
  • 供應商欺詐/項目超額收費
  • 醫療保險和醫療補助欺詐——索賠處理的欺詐檢測技術
  • 旅行報銷欺詐
  • IRS退稅欺詐
  • 案例研究和即時演示將在數據可用時提供。

第4天:第2節:社交媒體分析——情報收集與分析

  • 用於提取社交媒體數據的大數據ETL API
  • 文本、圖像、元數據和視頻
  • 從社交媒體中提取情感分析
  • 社交媒體中的上下文和非上下文過濾
  • 社交媒體儀表板,用於整合不同的社交媒體
  • 社交媒體檔案的自動畫像
  • 通過Treeminer工具演示每種分析。

第4天:第3節:大數據在圖像處理和視頻流中的應用

  • 大數據中的圖像存儲技術——超過PB級數據的存儲解決方案
  • LTFS和LTO
  • GPFS-LTFS(大數據圖像的分層存儲解決方案)
  • 圖像分析的基礎
  • 對象識別
  • 圖像分割
  • 運動跟蹤
  • 3D圖像重建

第4天:第4節:大數據在NIH中的應用:

  • 生物信息學的新興領域
  • 元基因組學與大數據挖掘問題
  • 大數據預測分析在藥物基因組學、代謝組學和蛋白質組學中的應用
  • 下游基因組學過程中的大數據
  • 大數據預測分析在公共衛生中的應用

大數據儀表板,用於快速訪問和顯示多樣化數據:

  • 將現有應用平臺與大數據儀表板集成
  • 大數據管理
  • 大數據儀表板案例研究:Tableau和Pentaho
  • 使用大數據應用在政府中推送基於位置的服務
  • 跟蹤系統和管理

第5天:第1節:如何證明大數據BI在組織中的實施:

  • 定義大數據實施的ROI
  • 案例研究:節省分析師收集和準備數據的時間——提高生產力收益
  • 案例研究:節省許可數據庫成本帶來的收益
  • 基於位置的服務帶來的收益
  • 欺詐預防帶來的節省
  • 綜合電子表格方法,計算大數據實施的近似費用與收益/節省。

第5天:第2節:逐步替換遺留數據系統爲大數據系統的步驟:

  • 理解實際的大數據遷移路線圖
  • 在架構大數據實施之前需要了解的重要信息
  • 計算數據量、速度、多樣性和真實性的不同方法
  • 如何估算數據增長
  • 案例研究

第5天:第4節:大數據供應商及其產品回顧。問答環節:

  • Accenture
  • APTEAN(原CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB(原10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware(EMC的一部分)

Sites Published:

United Arab Emirates - Big Data Business Intelligence for Govt. Agencies

Qatar - Big Data Business Intelligence for Govt. Agencies

Egypt - Big Data Business Intelligence for Govt. Agencies

Saudi Arabia - Big Data Business Intelligence for Govt. Agencies

South Africa - Big Data Business Intelligence for Govt. Agencies

Brasil - Inteligência de Negócios Big Data para Agências do Governo

Canada - Big Data Business Intelligence for Govt. Agencies

中国 - 面向政府机构的大数据商业智能

香港 - Big Data Business Intelligence for Govt. Agencies

澳門 - Big Data Business Intelligence for Govt. Agencies

台灣 - Big Data Business Intelligence for Govt. Agencies

USA - Big Data Business Intelligence for Govt. Agencies

Österreich - Big Data Business Intelligence for Govt. Agencies

Schweiz - Big Data Business Intelligence for Govt. Agencies

Deutschland - Big Data Business Intelligence for Govt. Agencies

Czech Republic - Big Data Business Intelligence pro státní orgány

Denmark - Big Data Business Intelligence for Govt. Agencies

Estonia - Big Data Business Intelligence for Govt. Agencies

Finland - Big Data Business Intelligence for Govt. Agencies

Greece - Μεγάλα Δεδομένα Επιχειρησιακή Νοηματική για Κυβερνητικές Αρχές

Magyarország - Big Data Üzleti Intelligencia Kormányzati Szervezeteknek

Ireland - Big Data Business Intelligence for Govt. Agencies

Luxembourg - Big Data Business Intelligence for Govt. Agencies

Latvia - Big Data Business Intelligence for Govt. Agencies

España - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Italia - Intelligenza Aziendale Big Data per le Agenzie Governative

Lithuania - Big Data Business Intelligence for Govt. Agencies

Nederland - Big Data Business Intelligence voor Overheidsinstanties

Norway - Big Data Business Intelligence for Govt. Agencies

Portugal - Inteligência de Negócios Big Data para Agências do Governo

România - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale

Sverige - Big Data Business Intelligence för regeringsorgan

Türkiye - Hükümet Kurumları için Büyük Veri İşletme Zekası

Malta - Big Data Business Intelligence for Govt. Agencies

Belgique - Intelligence d'affaires Big Data pour les agences gouvernementales

France - Intelligence d'affaires Big Data pour les agences gouvernementales

日本 - 政府機関向けの大規模データビジネスインテリジェンス

Australia - Big Data Business Intelligence for Govt. Agencies

Malaysia - Big Data Business Intelligence for Govt. Agencies

New Zealand - Big Data Business Intelligence for Govt. Agencies

Philippines - Big Data Business Intelligence for Govt. Agencies

Singapore - Big Data Business Intelligence for Govt. Agencies

Thailand - Big Data Business Intelligence for Govt. Agencies

Vietnam - Trí tuệ kinh doanh Big Data cho các cơ quan chính phủ

India - Big Data Business Intelligence for Govt. Agencies

Argentina - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Chile - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Costa Rica - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Ecuador - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Guatemala - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Colombia - Inteligencia de Negocios de Big Data para Agencias del Gobierno

México - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Panama - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Peru - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Uruguay - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Venezuela - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Polska - Big Data Business Intelligence for Govt. Agencies

United Kingdom - Big Data Business Intelligence for Govt. Agencies

South Korea - 정부 기관을 위한 빅 데이터 비즈니스 인텔리전스

Pakistan - Big Data Business Intelligence for Govt. Agencies

Sri Lanka - Big Data Business Intelligence for Govt. Agencies

Bulgaria - Бизнес интелигентност с Big Data за държавни агенции

Bolivia - Inteligencia de Negocios de Big Data para Agencias del Gobierno

Indonesia - Big Data Business Intelligence for Govt. Agencies

Kazakhstan - Big Data Business Intelligence for Govt. Agencies

Moldova - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale

Morocco - Big Data Business Intelligence for Govt. Agencies

Tunisia - Big Data Business Intelligence for Govt. Agencies

Kuwait - Big Data Business Intelligence for Govt. Agencies

Oman - Big Data Business Intelligence for Govt. Agencies

Slovakia - Big Data Business Intelligence for Govt. Agencies

Kenya - Big Data Business Intelligence for Govt. Agencies

Nigeria - Big Data Business Intelligence for Govt. Agencies

Botswana - Big Data Business Intelligence for Govt. Agencies

Slovenia - Big Data Business Intelligence for Govt. Agencies

Croatia - Big Data Business Intelligence for Govt. Agencies

Serbia - Big Data Business Intelligence for Govt. Agencies

Bhutan - Big Data Business Intelligence for Govt. Agencies

Nepal - Big Data Business Intelligence for Govt. Agencies

Uzbekistan - Big Data Business Intelligence for Govt. Agencies

US Government - Big Data Business Intelligence for Govt. Agencies