Course Code: bdbiga
Duration: 35 hours
Prerequisites:
- 정부의 비즈니스 운영 및 데이터 시스템에 대한 기본 지식
- SQL/Oracle 또는 관계형 데이터베이스에 대한 기본 이해
- 통계(스프레드시트 수준)에 대한 기본 이해
Overview:
기술의 발전과 정보량의 증가는 많은 산업, 특히 정부에서도 사업 방식을 변화시키고 있습니다. 모바일 기기와 애플리케이션, 스마트 센서 및 장치, 클라우드 컴퓨팅 솔루션, 시민 대상 포털 등의 급속한 성장으로 인해 정부 데이터 생성 및 디지털 보존률이 상승하고 있습니다. 디지털 정보가 확대되고 복잡해짐에 따라 정보 관리, 처리, 저장, 보안, 처분 등도 더욱 복잡해지고 있습니다. 새로운 캡처, 검색, 발견, 분석 도구들은 조직들이 비정형 데이터에서 통찰력을 얻는 데 도움을 주고 있습니다. 정부 시장은 정보가 전략적 자산임을 인식하고 있으며, 정부는 구조화된 정보와 비정형 정보를 보호, 활용, 분석하여 더 나은 서비스 제공과 미션 달성을 위해 노력하고 있습니다. 정부 지도자들은 데이터 주도형 조직으로 진화하여 미션을 성공적으로 수행하기 위해 사건, 사람, 프로세스, 정보 간의 의존 관계를 상관시키는 기반을 마련하고 있습니다.
높은 가치의 정부 솔루션들은 가장 혁신적인 기술들의 조합으로 만들어질 것입니다:
- 모바일 기기와 애플리케이션
- 클라우드 서비스
- 소셜 비즈니스 기술 및 네트워킹
- 빅 데이터와 분석
빅 데이터는 지능형 산업 솔루션 중 하나로, 정부가 대용량의 관련 및 비관련, 구조화된 및 비정형 데이터를 분석하여 더 나은 결정을 내릴 수 있도록 돕습니다.
이러한 업적을 이루는 데는 단순히 방대한 양의 데이터를 축적하는 것보다 훨씬 많은 것이 필요합니다. "빅 데이터의 대량을 이해하기 위해서는 이러한 방대하고 다양한 정보 스트림에서 유용한 지식을 분석하고 추출할 수 있는 최첨단 도구와 기술이 필요합니다," 백악관 과학기술정책국의 Tom Kalil과 Fen Zhao가 OSTP 블로그 게시물에서 작성했습니다.
백악관은 2012년에 National Big Data Research and Development Initiative를 설립하여 기관들이 이러한 기술을 찾는 데 도움을 주기 위한 단계를 밟았습니다. 이 이니셔티브에는 빅 데이터의 급증과 이를 분석하는 도구에 2억 달러 이상이 포함되었습니다.
빅 데이터가 제시하는 과제는 그 약속만큼이나 어려울 수 있습니다. 효율적으로 데이터를 저장하는 것이 이러한 과제 중 하나입니다. 예산은 항상 긴장 상태에 있으므로 기관들은 메가바이트당 저장 비용을 최소화하면서 사용자가 원할 때와 필요할 때 쉽게 접근할 수 있도록 데이터를 보유해야 합니다. 방대한 양의 데이터를 백업하는 것은 과제를 더욱 어렵게 만듭니다.
효과적으로 데이터를 분석하는 것도 또 다른 큰 과제입니다. 많은 기관들이 데이터 산을 헤쳐나가며 효율적인 운영에 도움이 되는 트렌드를 포착할 수 있는 상업적 도구를 사용하고 있습니다. (MeriTalk의 최근 연구에 따르면 연방 IT 임원들은 빅 데이터가 기관들이 500억 달러 이상을 절약하면서도 미션 목표를 달성할 수 있다고 생각합니다.).
맞춤형 개발된 빅 데이터 도구들도 기관들이 데이터를 분석해야 하는 필요성을 충족시키는 데 도움을 주고 있습니다. 예를 들어, 오크 리지 국립연구소의 Computational Data Analytics 그룹은 Piranha 데이터 분석 시스템을 다른 기관들에게 제공하고 있습니다. 이 시스템은 의료 연구자들이 의사에게 혈관류가 발생하기 전에 알림을 제공할 수 있는 연결점을 찾는 데 도움을 주었습니다. 또한 이 시스템은 이력서를 검토하여 채용 관리자와 구직자를 연결하는 등의 더 일상적인 작업에도 사용됩니다.
Course Outline:
각 세션은 2시간입니다
1일차: 세션 -1: 정부를 위한 빅 데이터 비즈니스 인텔리전스 개요
- NHI, DoE 사례 연구
- 정부 기관에서의 빅 데이터 채택률 및 미래 운영을 둘러싼 방향 설정
- DoD, NSA, IRS, USDA 등에서의 광범위한 응용 분야
- 빅 데이터와 구조화된 데이터의 연계
- 예측 분석 기술에 대한 기본 이해
- 데이터 통합 및 대시보드 시각화
- 사기 관리
- 비즈니스 규칙/사기 탐지 생성
- 위협 탐지 및 프로파일링
- 빅 데이터 구현의 비용 효과 분석
1일차: 세션-2 : 빅 데이터 입문 1부
- 빅 데이터의 주요 특성 - 용량, 다양성, 속도, 신뢰성. 대용량을 위한 MPP 아키텍처.
- 데이터 웨어하우스 - 정적 스키마, 천천히 진화하는 데이터셋
- Greenplum, Exadata, Teradata, Netezza, Vertica 등의 MPP 데이터베이스
- Hadoop 기반 솔루션 - 데이터셋의 구조에 대한 조건 없음.
- 일반 패턴 : HDFS, MapReduce (분석), HDFS에서 검색
- 배치 - 분석적/비대화적 용도에 적합
- 용량 : CEP 스트리밍 데이터
- 일반 선택 - CEP 제품 (예: Infostreams, Apama, MarkLogic 등)
- 생산성 미흡 - Storm/S4
- NoSQL 데이터베이스 - (열 기반 및 키-값): 데이터 웨어하우스/데이터베이스의 분석 보조로 가장 적합
1일차: 세션 -3 : 빅 데이터 입문 2부
NoSQL 솔루션
- KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV 스토어 - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV 스토어 (계층적) - GT.m, Cache
- KV 스토어 (정렬된) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- 튜플 스토어 - Gigaspaces, Coord, Apache River
- 오브젝트 데이터베이스 - ZopeDB, DB40, Shoal
- 문서 스토어 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- 넓은 열 스토어 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
다양한 데이터: 빅 데이터에서의 데이터 정제 문제 소개
- RDBMS - 정적 구조/스키마, 민첩하고 탐색적인 환경을 촉진하지 않음.
- NoSQL - 반정형, 데이터를 저장하기 전에 정확한 스키마 없이도 충분히 구조화됨
- 데이터 정제 문제
1일차: 세션-4 : 빅 데이터 입문 3부 : Hadoop
- Hadoop 선택 시기는?
- 정형 - 기업 데이터 웨어하우스/데이터베이스는 대용량 데이터를 저장할 수 있지만 (비용이 들지만) 구조를 부과합니다 (활성 탐색에 적합하지 않음)
- 반정형 데이터 - 전통적 솔루션(DW/DB)으로는 어려움
- 데이터 웨어하우싱 = 막대한 노력이 필요하며 구현 후에도 정적임
- 다양성과 용량을 가진 데이터, 저렴한 하드웨어에서 처리 - HADOOP
- Hadoop 클러스터를 만들기 위한 저렴한 하드웨어/W 필요함
Map Reduce /HDFS 소개
- MapReduce - 여러 서버에 분산 컴퓨팅
- HDFS - 데이터를 로컬로 제공하여 컴퓨팅 프로세스에 사용 (중복 포함)
- 데이터 - 비정형/스키마 없음 (RDBMS와 달리)
- 개발자의 책임은 데이터의 의미 이해
- MapReduce 프로그래밍 = Java 작업 (장점/단점), 수동으로 데이터 HDFS에 로드
2일차: 세션-1: 빅 데이터 생태계 - 빅 데이터 ETL 구축: 빅 데이터 도구의 세계 - 언제 어떤 것을 사용할 것인가?
- Hadoop vs. 다른 NoSQL 솔루션
- 데이터에 대한 상호작용, 임의 접근
- Hbase (열 지향형 데이터베이스)를 Hadoop 위에
- 데이터에 대한 임의 접근 but 제약 조건 부과 (최대 1PB)
- 즉석 분석에는 적합하지 않음, 로깅, 카운팅, 시계열 용도로 좋음
- Sqoop - 데이터베이스에서 Hive나 HDFS로 가져오기 (JDBC/ODBC 접근)
- Flume - 데이터 스트림(예: 로그 데이터)을 HDFS에 전송
2일차: 세션-2: 빅 데이터 관리 시스템
- 구성 요소, 컴퓨팅 노드 시작/중단 : ZooKeeper - 구성/조정/네임링 서비스
- 복잡한 파이프라인/워크플로우: Oozie - 워크플로우 관리, 의존성, 다이시 체인
- 배포, 구성, 클러스터 관리, 업그레이드 등 (시스템 관리자) : Ambari
- 클라우드에서: Whirr
2일차: 세션-3: 예측 분석의 비즈니스 인텔리전스 1부 - 기초 기술 및 머신 러닝 기반 BI :
- 머신 러닝 소개
- 분류 기법 학습
- 베이지안 예측 - 훈련 파일 준비
- 서포트 벡터 머신
- KNN p-Tree 대수학 및 수직 마이닝
- 뉴럴 네트워크
- 빅 데이터 대변수 문제 - 랜덤 포레스트 (RF)
- 빅 데이터 자동화 문제 - 다중 모델 앙상블 RF
- Soft10-M을 통한 자동화
- 텍스트 분석 도구 - Treeminer
- 민첩 학습
- 에이전트 기반 학습
- 분산 학습
- 예측 분석용 오픈 소스 도구 소개 : R, Rapidminer, Mahut
2일차: 세션-4 예측 분석 생태계 2부 - 정부에서의 일반적인 예측 분석 문제
- 인사이트 분석
- 시각화 분석
- 구조화된 예측 분석
- 비정형 예측 분석
- 위협/사기/공급자 프로파일링
- 추천 엔진
- 패턴 탐지
- 규칙/시나리오 발견 - 실패, 사기, 최적화
- 원인 발견
- 감성 분석
- CRM 분석
- 네트워크 분석
- 텍스트 분석
- 기술 지원 리뷰
- 사기 분석
- 실시간 분석
3일차: 세션-1 : Hadoop 위에서의 실시간 및 확장 가능한 분석
- Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
- Apache Hama - 대량 동기화 분산 컴퓨팅을 위한
- Apache SPARK - 실시간 분석을 위한 클러스터 컴퓨팅
- CMU Graphics Lab2 - 그래프 기반 비동기 접근 방식의 분산 컴퓨팅
- Treeminer에서 하드웨어 비용 절감을 위한 KNN p-대수학 기반 접근 방식
3일차: 세션-2: 전자발견 및 포렌식 도구
- 빅 데이터 위의 전자발견 vs. 전통적 데이터 - 비용과 성능 비교
- 예측 코딩 및 기술 지원 리뷰 (TAR)
- Tar 제품 (vMiner) 데모를 통해 TAR이 더 빠른 발견을 위해 어떻게 작동하는지 이해
- HDFS를 통한 더 빠른 색인 - 데이터의 속도
- NLP 또는 자연어 처리 - 다양한 기법 및 오픈 소스 제품
- 외국어 전자발견 - 외국어 처리용 기술
3일차: 세션-3: 사이버 보안을 위한 빅 데이터 BI - 빠른 데이터 수집부터 위협 식별까지 전체 360도 이해
- 보안 분석의 기본 이해 - 공격 표면, 보안 설정 오류, 호스트 방어
- 네트워크 인프라/대규모 데이터 파이프/실시간 분석을 위한 응답 ETL
- 처방적 vs 예측적 - 고정 규칙 기반 vs 메타데이터에서 위협 규칙 자동 발견
3일차: 세션-4: 농업에의 빅 데이터 응용
- 농업을 위한 IoT (인터넷 오브 씽스) - 센서 기반 빅 데이터 및 제어
- 농업에서의 위성 영상 소개 및 응용
- 토양 비옥도, 재배 추천, 예측을 위한 센서 및 이미지 데이터 통합
- 농업 보험과 빅 데이터
- 작물 손실 예측
4일차: 세션-1: 정부에서의 사기 방지를 위한 빅 데이터 BI - 사기 분석:
- 사기 분석의 기본 분류 - 규칙 기반 vs 예측적 분석
- 감독된 vs 비감독된 머신 러닝을 통한 사기 패턴 탐지
- 공급자 사기/프로젝트 과다 청구
- 메디케어 및 메디케이드 사기 - 청구 처리를 위한 사기 검출 기법
- 여행 환급 사기
- 국세청 환급 사기
- 데이터가 가능한 경우 사례 연구와 실시간 데모 제공.
4일차: 세션-2: 소셜 미디어 분석 - 정보 수집 및 분석
- 빅 데이터 ETL API를 사용한 소셜 미디어 데이터 추출
- 텍스트, 이미지, 메타데이터, 비디오
- 소셜 미디어 피드의 감성 분석
- 소셜 미디어 피드의 문맥적 및 비문맥적 필터링
- 다양한 소셜 미디어 통합을 위한 소셜 미디어 대시보드
- 자동화된 소셜 미디어 프로파일 생성
- Treeminer 도구를 통해 각 분석의 실시간 데모 제공.
4일차: 세션-3: 이미지 처리 및 비디오 피드의 빅 데이터 분석
- 빅 데이터에서의 이미지 저장 기술 - 페타바이트를 초과하는 데이터 저장 솔루션
- LTFS와 LTO
- GPFS-LTFS (큰 이미지 데이터를 위한 계층적 저장 솔루션)
- 이미지 분석의 기초
- 객체 인식
- 이미지 세그멘테이션
- 운동 추적
- 3D 이미지 재구성
4일차: 세션-4: NIH에서의 빅 데이터 응용:
- 생물 정보학의 새로운 영역
- 메타게놈 및 빅 데이터 마이닝 문제
- 약물 유전체학, 대사체학, 단백질체학을 위한 빅 데이터 예측 분석
- 다운스트림 게놈 프로세스에서의 빅 데이터
- 공중 보건에의 빅 데이터 예측 분석 응용
다양한 데이터의 빠른 접근 및 표시를 위한 빅 데이터 대시보드 :
- 기존 애플리케이션 플랫폼과 빅 데이터 대시보드 통합
- 빅 데이터 관리
- 빅 데이터 대시보드 사례 연구: Tableau와 Pentaho
- 정부에서 위치 기반 서비스를 위한 빅 데이터 앱 활용
- 추적 시스템 및 관리
5일차: 세션-1: 조직 내에서 빅 데이터 BI 구현을 정당화하는 방법:
- 빅 데이터 구현의 ROI 정의
- 데이터 수집 및 준비 시간 절약 사례 연구 - 생산성 향상
- 라이선스된 데이터베이스 비용 절감 사례 연구
- 위치 기반 서비스로부터의 수익 증가
- 사기 방지로부터의 절감액
- 빅 데이터 구현에 따른 대략적인 비용 vs. 수익/절감액 계산을 위한 통합 스프레드시트 접근 방식.
5일차: 세션-2: 전통적 데이터 시스템에서 빅 데이터 시스템으로의 단계별 절차:
- 실제적인 빅 데이터 마이그레이션 로드맵 이해
- 빅 데이터 구현을 설계하기 위한 중요한 정보는 무엇인가?
- 데이터의 양, 속도, 다양성, 신뢰성을 계산하는 다양한 방법은 무엇인가?
- 데이터 성장을 어떻게 예측할 것인가?
- 사례 연구
5일차: 세션-4: 빅 데이터 벤더 및 제품 리뷰. Q&A 세션:
- Accenture
- APTEAN (이전 CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (이전 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (EMC의 일부)
United Arab Emirates - Big Data Business Intelligence for Govt. Agencies
Qatar - Big Data Business Intelligence for Govt. Agencies
Egypt - Big Data Business Intelligence for Govt. Agencies
Saudi Arabia - Big Data Business Intelligence for Govt. Agencies
South Africa - Big Data Business Intelligence for Govt. Agencies
Brasil - Inteligência de Negócios Big Data para Agências do Governo
Canada - Big Data Business Intelligence for Govt. Agencies
香港 - Big Data Business Intelligence for Govt. Agencies
澳門 - Big Data Business Intelligence for Govt. Agencies
台灣 - Big Data Business Intelligence for Govt. Agencies
USA - Big Data Business Intelligence for Govt. Agencies
Österreich - Big Data Business Intelligence for Govt. Agencies
Schweiz - Big Data Business Intelligence for Govt. Agencies
Deutschland - Big Data Business Intelligence for Govt. Agencies
Czech Republic - Big Data Business Intelligence pro státní orgány
Denmark - Big Data Business Intelligence for Govt. Agencies
Estonia - Big Data Business Intelligence for Govt. Agencies
Finland - Big Data Business Intelligence for Govt. Agencies
Greece - Μεγάλα Δεδομένα Επιχειρησιακή Νοηματική για Κυβερνητικές Αρχές
Magyarország - Big Data Üzleti Intelligencia Kormányzati Szervezeteknek
Ireland - Big Data Business Intelligence for Govt. Agencies
Luxembourg - Big Data Business Intelligence for Govt. Agencies
Latvia - Big Data Business Intelligence for Govt. Agencies
España - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Italia - Intelligenza Aziendale Big Data per le Agenzie Governative
Lithuania - Big Data Business Intelligence for Govt. Agencies
Nederland - Big Data Business Intelligence voor Overheidsinstanties
Norway - Big Data Business Intelligence for Govt. Agencies
Portugal - Inteligência de Negócios Big Data para Agências do Governo
România - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale
Sverige - Big Data Business Intelligence för regeringsorgan
Türkiye - Hükümet Kurumları için Büyük Veri İşletme Zekası
Malta - Big Data Business Intelligence for Govt. Agencies
Belgique - Intelligence d'affaires Big Data pour les agences gouvernementales
France - Intelligence d'affaires Big Data pour les agences gouvernementales
日本 - 政府機関向けの大規模データビジネスインテリジェンス
Australia - Big Data Business Intelligence for Govt. Agencies
Malaysia - Big Data Business Intelligence for Govt. Agencies
New Zealand - Big Data Business Intelligence for Govt. Agencies
Philippines - Big Data Business Intelligence for Govt. Agencies
Singapore - Big Data Business Intelligence for Govt. Agencies
Thailand - Big Data Business Intelligence for Govt. Agencies
Vietnam - Trí tuệ kinh doanh Big Data cho các cơ quan chính phủ
India - Big Data Business Intelligence for Govt. Agencies
Argentina - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Chile - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Costa Rica - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Ecuador - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Guatemala - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Colombia - Inteligencia de Negocios de Big Data para Agencias del Gobierno
México - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Panama - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Peru - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Uruguay - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Venezuela - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Polska - Big Data Business Intelligence for Govt. Agencies
United Kingdom - Big Data Business Intelligence for Govt. Agencies
South Korea - 정부 기관을 위한 빅 데이터 비즈니스 인텔리전스
Pakistan - Big Data Business Intelligence for Govt. Agencies
Sri Lanka - Big Data Business Intelligence for Govt. Agencies
Bulgaria - Бизнес интелигентност с Big Data за държавни агенции
Bolivia - Inteligencia de Negocios de Big Data para Agencias del Gobierno
Indonesia - Big Data Business Intelligence for Govt. Agencies
Kazakhstan - Big Data Business Intelligence for Govt. Agencies
Moldova - Inteligența de Business pe Date Mari pentru Agențiile Guvernamentale
Morocco - Big Data Business Intelligence for Govt. Agencies
Tunisia - Big Data Business Intelligence for Govt. Agencies
Kuwait - Big Data Business Intelligence for Govt. Agencies
Oman - Big Data Business Intelligence for Govt. Agencies
Slovakia - Big Data Business Intelligence for Govt. Agencies
Kenya - Big Data Business Intelligence for Govt. Agencies
Nigeria - Big Data Business Intelligence for Govt. Agencies
Botswana - Big Data Business Intelligence for Govt. Agencies
Slovenia - Big Data Business Intelligence for Govt. Agencies
Croatia - Big Data Business Intelligence for Govt. Agencies
Serbia - Big Data Business Intelligence for Govt. Agencies
Bhutan - Big Data Business Intelligence for Govt. Agencies
Nepal - Big Data Business Intelligence for Govt. Agencies
Uzbekistan - Big Data Business Intelligence for Govt. Agencies
US Government - Big Data Business Intelligence for Govt. Agencies