2
Most read
4
Most read
8
Most read
BIG DATA 
Революция в области хранения 
и обработки данных
2 
История появления термина BIG DATA 
 Клиффорд Линч, редактор журнала Nature, в 2008 году впервые упомянул о термине BIG DATA в специальном 
номере журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности 
работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста 
объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка 
«от количества к качеству» 
 В 2009 году термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и 
решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году 
большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях 
используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные 
аналитики рынка информационных технологий посвящают концепции выделенные 
 В 2011 году Gartner отмечает большие данные как тренд номер два в информационно-технологической 
инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). 
Прогнозируется, что внедрение технологий больших данных наибольшее влияние окажет на информационные 
технологии в производстве ,здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, 
где регистрируются индивидуальные перемещения ресурсов
3 
Что же такое BIG DATA? 
Группа технологий и методов производительной обработки динамически растущих объемов 
данных( структурированных и неструктурированных) в распределенных информационных 
системах, обеспечивающих организацию качественно новой полезной информацией 
Big Data — это наборы данных такого объема, что традиционные инструменты не 
способны осуществлять их захват, управление и обработку за приемлемое для практики 
время. 
Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал 
мегамассивов данных за счет поиска ценных закономерностей и фактов путем объединения 
и анализа больших объемов данных.
4 
Volume Variety Velocity 
Volume Variety Velocity 
Реально большие 
объемы данных в 
физическом смысле 
Слабо 
структурированные 
и разнородные 
данные 
Необходимость 
высокой скорости 
обработки данных 
1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts, 
Video, Audio
5 
Объем данных корпораций по отраслям в 2012г 
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 
Ценные бумаги 
Банкинг 
Медицина 
Энергетика 
Правительство 
Страхование 
Коммуникации и медиа 
Энергетика 
Объем данных в Тб 
Источник данных: McKinsey
6 
Интернет и мобильные технологии 
Twitter 175 млн твит сообщений в день 
Facebook 300 млн фото загружаемых ежедневно 
Google 24PB ежедневно 
AT&T передает 30Pb в день 
Walmart более 1 млн продаж в час 
Объем данных, переданных/полученных на мобильные 
устройства, — 1,3 эксабайт
7 
Основные технологии анализа в BigData 
 MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с 
использованием большого количества компьютеров (называемых «нодами»), 
образующих кластер, разработанный компанией Google. 
 Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения 
распределённых программ, работающих на кластерах из сотен и тысяч узлов. 
 NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих 
существенные отличия от моделей, используемых в традиционных реляционных СУБД с 
доступом к данным средствами языка SQL. Применяется к базам данных, в которых 
делается попытка решить проблемы масштабируемости и доступности за 
счёт атомарности и согласованности данных
8 
Value
9 
Методы анализа используемые в BigData 
Уникальность подхода больших данных заключается в агрегировании 
огромного объема неструктурированной информации из разных 
источников в одном месте. 
 Классификация (методы категоризации новых данных на основе принципов, 
ранее применённых к уже наличествующим данным) 
 Кластерный анализ 
 Регрессионный анализ 
 Рекомендательные системы 
 Искусственные нейронные сети, в том числе генетические алгоритмы;
10 
Самые продвинутые отрасли BigData 
01 Маркетинг 03 
Сегментация рынка 
Моделирование 
приобретения и оттока 
клиентов 
Рекомендательные 
системы 
Анализ соц.медиа 
02 Финансы Медицина 
Детектирование 
аномального поведения 
Анализ кредитных рисков 
Страховое моделирование 
Генетический анализ 
Анализ клинических 
испытаний 
Экспертные системы
11 
Value для бизнеса 
Value 
Учитывая масштабность, перед бизнесом встала задача не только выбора 
адекватного инструментария по анализу информации, но и построения 
оптимальной вычислительной инфраструктуры, которая была бы 
эффективной и не очень дорогой. 
.Действительно, большие хранилища данных в сфере финансовых услуг, телекоммуникаций, розничной торговли и 
государственных организаций существовали на протяжении многих лет. Применялись решения по обработке данных в 
реальном времени для управления бизнес-процессами, например в торговле, а также высокопроизводительные 
вычислительные системы для научных исследований. Различие их состоит в том, что те системы, которые раньше решали 
отдельные проблемы бизнеса на больших предприятиях, сегодня становятся основой осуществления их бизнес-стратегии. 
Технология Big Data позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить затраты на рабочую силу за счет 
более эффективных методов интеграции данных, управления, анализа и выработки решения; обеспечить увеличение 
дохода и прибыли путем новых или более эффективных способов ведения бизнеса. То есть на современном этапе те же 
самые технологии представляют качественно новую ценность для предприятия
12 
Кейс «Как компания может узнать о ваших секретах?» 
Магазин Target и 
беременная девочка, 
США 2012г
13 
Спасибо за 
внимание! 
Алексеев Михаил 
alekseev.miha@gmail.com 
Linkedin 
Facebook 
Vk

More Related Content

PPT
Тема 4. Організація як система
PPTX
презентація до 3теми
PPT
01 загальні основи менеджменту
PPTX
888 історія менеджменту
PPTX
Інструменти проектного менеджменту для малого та середнього бізнесу презентація
PPT
Механістичні та адаптивні організаційні структури управління (1).ppt
PPT
Тема 1 Управління змінами
PPTX
Кількісна теорія менеджменту
Тема 4. Організація як система
презентація до 3теми
01 загальні основи менеджменту
888 історія менеджменту
Інструменти проектного менеджменту для малого та середнього бізнесу презентація
Механістичні та адаптивні організаційні структури управління (1).ppt
Тема 1 Управління змінами
Кількісна теорія менеджменту

What's hot (20)

PPTX
Big Data: вызовы и возможности
PDF
Numpy tutorial
PDF
Big data analytics for transport
PPTX
Using Data Strategy Design to Build Data-Driven Products
PDF
Data Analytics PowerPoint Presentation Slides
PPTX
Python 3 Programming Language
PDF
Python Basics | Python Tutorial | Edureka
PPTX
Introduction to numpy Session 1
PPTX
Deep Learning for Artificial Intelligence (AI)
PDF
Introduction To Python
PDF
Introduction To Data Science
PPT
Big Data
PPTX
Intro to Python Programming Language
PDF
Stock Price Trend Forecasting using Supervised Learning
PPTX
Introduction to natural language processing (NLP)
PDF
The Data Science Process
PPTX
Python Tutorial Part 1
PPT
MongoDB Schema Design
PDF
Integration of HIve and HBase
Big Data: вызовы и возможности
Numpy tutorial
Big data analytics for transport
Using Data Strategy Design to Build Data-Driven Products
Data Analytics PowerPoint Presentation Slides
Python 3 Programming Language
Python Basics | Python Tutorial | Edureka
Introduction to numpy Session 1
Deep Learning for Artificial Intelligence (AI)
Introduction To Python
Introduction To Data Science
Big Data
Intro to Python Programming Language
Stock Price Trend Forecasting using Supervised Learning
Introduction to natural language processing (NLP)
The Data Science Process
Python Tutorial Part 1
MongoDB Schema Design
Integration of HIve and HBase
Ad

Viewers also liked (20)

PDF
Андрей Себрант - Что такое Big data и почему это страшно интересно
PPTX
Применение Big Data в маркетинге
PDF
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
PPTX
Whatisbigdata 130718170809-phpapp01
PDF
Презентация Big data
PPTX
Big data как конкурентное преимущество в условиях кризиса
PPTX
Разработка торгового робота
PPTX
Решение логистической задачи от компании Unilever
PDF
Changellenge Газпром.Нефть, разработка интеллектуального месторождения.
PPTX
1 big data oracle digi oct
PDF
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
PPTX
Внедрение технологии SAP HANA в медицинские учреждения России
PPTX
Решение технологического кейса для компании "Аэрофлот"
PDF
Titan: The Rise of Big Graph Data
PPTX
What is Big Data?
PPTX
Big data ppt
PPT
Топ-5 сайтов для поиска работы
PDF
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
PPTX
SDNC13 -Day1- The Danger of Big Data by Kerry Bodine
PDF
TAdviser - BI-Big Data - Макаров
Андрей Себрант - Что такое Big data и почему это страшно интересно
Применение Big Data в маркетинге
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Whatisbigdata 130718170809-phpapp01
Презентация Big data
Big data как конкурентное преимущество в условиях кризиса
Разработка торгового робота
Решение логистической задачи от компании Unilever
Changellenge Газпром.Нефть, разработка интеллектуального месторождения.
1 big data oracle digi oct
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Внедрение технологии SAP HANA в медицинские учреждения России
Решение технологического кейса для компании "Аэрофлот"
Titan: The Rise of Big Graph Data
What is Big Data?
Big data ppt
Топ-5 сайтов для поиска работы
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
SDNC13 -Day1- The Danger of Big Data by Kerry Bodine
TAdviser - BI-Big Data - Макаров
Ad

Similar to Что такое Big Data ? (20)

PDF
Аналитический обзор рынка Больших Данных от IPOboard
PDF
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
PDF
Data Science Week 2016. Sberbank
PDF
нил тбд нтс_10-13
PPTX
Тренды сегодня: Big Data
PPTX
Big data, бизнес, CRM
PDF
Александр Богданов «Lambda - архитектура»
PDF
OSPconf Big Data Forum 2014 Ilya Gershanov
PPTX
Логическая витрина для доступа к большим данным
PPTX
Искусственный интеллект и Big Data в бизнесе
PPTX
2015 06-16 круглый стол компетенции по большим данным
PDF
Big Data с точки зрения конечного пользователя
PPTX
Big datatech by-vkrylov
PDF
Подход к решению аналитических задач на базе opensource
PPTX
Big data
PPTX
Big Data
PDF
Большие данные и бизнес-аналитика: как найти пользу?
PPTX
2015 голограмма коллектива
PDF
Информационные технологии в эру Больших данных
PPTX
Информационные технологии в эру Больших данных
Аналитический обзор рынка Больших Данных от IPOboard
Digital Lab: Big Data: земля обетованная в управлении отношений с клиентами
Data Science Week 2016. Sberbank
нил тбд нтс_10-13
Тренды сегодня: Big Data
Big data, бизнес, CRM
Александр Богданов «Lambda - архитектура»
OSPconf Big Data Forum 2014 Ilya Gershanov
Логическая витрина для доступа к большим данным
Искусственный интеллект и Big Data в бизнесе
2015 06-16 круглый стол компетенции по большим данным
Big Data с точки зрения конечного пользователя
Big datatech by-vkrylov
Подход к решению аналитических задач на базе opensource
Big data
Big Data
Большие данные и бизнес-аналитика: как найти пользу?
2015 голограмма коллектива
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данных

Что такое Big Data ?

  • 1. BIG DATA Революция в области хранения и обработки данных
  • 2. 2 История появления термина BIG DATA  Клиффорд Линч, редактор журнала Nature, в 2008 году впервые упомянул о термине BIG DATA в специальном номере журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»  В 2009 году термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные  В 2011 году Gartner отмечает большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). Прогнозируется, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве ,здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов
  • 3. 3 Что же такое BIG DATA? Группа технологий и методов производительной обработки динамически растущих объемов данных( структурированных и неструктурированных) в распределенных информационных системах, обеспечивающих организацию качественно новой полезной информацией Big Data — это наборы данных такого объема, что традиционные инструменты не способны осуществлять их захват, управление и обработку за приемлемое для практики время. Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал мегамассивов данных за счет поиска ценных закономерностей и фактов путем объединения и анализа больших объемов данных.
  • 4. 4 Volume Variety Velocity Volume Variety Velocity Реально большие объемы данных в физическом смысле Слабо структурированные и разнородные данные Необходимость высокой скорости обработки данных 1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts, Video, Audio
  • 5. 5 Объем данных корпораций по отраслям в 2012г 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Ценные бумаги Банкинг Медицина Энергетика Правительство Страхование Коммуникации и медиа Энергетика Объем данных в Тб Источник данных: McKinsey
  • 6. 6 Интернет и мобильные технологии Twitter 175 млн твит сообщений в день Facebook 300 млн фото загружаемых ежедневно Google 24PB ежедневно AT&T передает 30Pb в день Walmart более 1 млн продаж в час Объем данных, переданных/полученных на мобильные устройства, — 1,3 эксабайт
  • 7. 7 Основные технологии анализа в BigData  MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами»), образующих кластер, разработанный компанией Google.  Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.  NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к базам данных, в которых делается попытка решить проблемы масштабируемости и доступности за счёт атомарности и согласованности данных
  • 9. 9 Методы анализа используемые в BigData Уникальность подхода больших данных заключается в агрегировании огромного объема неструктурированной информации из разных источников в одном месте.  Классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным)  Кластерный анализ  Регрессионный анализ  Рекомендательные системы  Искусственные нейронные сети, в том числе генетические алгоритмы;
  • 10. 10 Самые продвинутые отрасли BigData 01 Маркетинг 03 Сегментация рынка Моделирование приобретения и оттока клиентов Рекомендательные системы Анализ соц.медиа 02 Финансы Медицина Детектирование аномального поведения Анализ кредитных рисков Страховое моделирование Генетический анализ Анализ клинических испытаний Экспертные системы
  • 11. 11 Value для бизнеса Value Учитывая масштабность, перед бизнесом встала задача не только выбора адекватного инструментария по анализу информации, но и построения оптимальной вычислительной инфраструктуры, которая была бы эффективной и не очень дорогой. .Действительно, большие хранилища данных в сфере финансовых услуг, телекоммуникаций, розничной торговли и государственных организаций существовали на протяжении многих лет. Применялись решения по обработке данных в реальном времени для управления бизнес-процессами, например в торговле, а также высокопроизводительные вычислительные системы для научных исследований. Различие их состоит в том, что те системы, которые раньше решали отдельные проблемы бизнеса на больших предприятиях, сегодня становятся основой осуществления их бизнес-стратегии. Технология Big Data позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить затраты на рабочую силу за счет более эффективных методов интеграции данных, управления, анализа и выработки решения; обеспечить увеличение дохода и прибыли путем новых или более эффективных способов ведения бизнеса. То есть на современном этапе те же самые технологии представляют качественно новую ценность для предприятия
  • 12. 12 Кейс «Как компания может узнать о ваших секретах?» Магазин Target и беременная девочка, США 2012г
  • 13. 13 Спасибо за внимание! Алексеев Михаил [email protected] Linkedin Facebook Vk

Editor's Notes

  • #4: В мире больших данных мы можем проанализировать огромное количество данных, а в некоторых случаях – обработать ВСЕ данные, касающиеся того или иного явления, а не полагаться на случайные выборки.
  • #5: В мире больших данных мы можем проанализировать огромное количество данных, а в некоторых случаях – обработать ВСЕ данные, касающиеся того или иного явления, а не полагаться на случайные выборки.
  • #13: Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.
  • #14: Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.