Сделай Сам Свою Работу на 5

Как стратегический ресурс





В последние годы Большие Данные являются общепризнанным трендом экономического и техноло- гического развития. Им посвящены тысячи публикаций. Они относятся к числу наиболее популярных тем, как в специализированных изданиях, так и в различного рода СМИ, рассчитанных на самую широкую аудиторию. В ре- зультате возникло впечатление, что Большие Данные – это нечто само собой разумеющееся, ясное, понятное. Широко распространена иллюзия о повсеместном при- менении Больших Данных в России.

Между тем, дело обстоит совсем не так. Беспри- страстный анализ фактических данных показывает, что наша страна существенно отстает в сфере Больших Дан- ных. Значительная часть компаний только используют термин «Большие Данные» в маркетинговых целях, а по сути, применяют старую, хорошо известную бизнес- аналитику, которая заметно отличается от Больших Дан- ных. В стране практически нет спроса на специалистов по Большим Данным. Достаточно посмотреть наиболее популярные порталы работ, чтобы убедиться, что спрос на специалистов по Большим Данным у нас на порядки меньше, чем в США, Европе, Японии, Китае. В то время как во всем мире издаются сотни профессиональных и общедоступных книг по отдельным аспектам Больших Данных, в России только в этом году вышла первая кни- га по Большим Данным – работа В. Майер-Шенбергера и К. Кукьера «Большие данные. Революция, которая из-




Елена Ларина, Владимир Овчинский

КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ

 

менит то, как мы живем, работаем и мыслим». Да и эта книга носит не профессиональный характер, а написана в жанре нон-фикшн.

Происходящее вызывает особую тревогу в услови- ях, когда ведущие наднациональные мировые струк- туры и транснациональные корпорации, правитель- ства ведущих стран мира, бизнес самых различных масштабов, системы управления производственной и социальной инфраструктурой и, конечно же, военно- разведывательный комплекс всех основных стран мира уже используют Большие Данные как важнейший стра- тегический ресурс.

Достаточно парадоксально, что до сих пор при ши- роком использовании технологий Больших Данных нет общеупотребительного их определения. Наиболее часто используется популярное определение Майкла Фран- клина из Университета в Беркли: «Большие Данные – это любые данные, работа с которыми требует значительных затрат и из которых трудно извлечь информацию». Дан- ное определение кочует из книги в книгу, из работы в ра- боту. Между тем, оно является лучшим подтверждением тезиса о том, что наука о Больших Данные и практиче- ские технологии Больших Данных живут в параллельных реальностях. Соответственно, наука о Больших Данных не столько выступает надежным базисом для инжене- рии данных, сколько намерено или ненамеренно скры- вает революционную суть технологий Больших Данных. В самом деле, определение через большие затра-



ты и трудность обработки может указывать не только на специфические характеристики данных, но и на не- эффективность применяемых технологий. По сути, это определение ничего не говорит о том, чем Большие Дан- ные отличаются от просто данных. Казалось бы, штука эта безобидная и носит исключительно академический характер. Однако, на практике это не так. Когда лица, принимающие решения, возможно и не обладающие


Глава 3 БОЛЬШИЕ ДАННЫЕ

 

глубокими профессиональными познаниями, но в по- давляющем числе наделенные недюжинным здравым смыслом, встречаются с подобными определениями, у них возникает подозрение, что они имеют дело с оче- редной маркетинговой уловкой. Суть этой уловки в том, чтобы просто извлечь из организации деньги, заставив ее заплатить за старые решения под новым названием. Несомненно, что непонятность Больших Данных для лиц, принимающих решения, в том числе и у нас, принципи- альное отличие технологий Больших Данных от того, что было раньше, стали одними из важных причин, почему Россия и целый ряд других стран, располагающих всеми необходимыми предпосылками для использования этих технологий, на сегодняшний день отстают в гонке циф- ровых вооружений.



Чтобы разобраться с тем, что такое Большие Данные и в чем принципиальная новизна их технологий, надо для начала отследить время возникновения термина. Сам по себе термин «Большие Данные» появился пять лет назад после публикации специального выпуска веду- щего американского научного журнала Nature, целиком посвященного этой теме. Затем тема, как по команде, была растиражирована сначала специализированными IT-изданиями, а затем подхвачена элитными СМИ, типа Foreign Affairs, Wall Street Journal и т.п.

Что же произошло пять лет назад? Есть ли какие-то документальные доказательства, что мы имеем дело с чем-то принципиально новым, а не с хорошо продуман- ной маркетинговой кампанией по принуждению прави- тельств и корпораций к покупке нового, дорогостояще- го софта? Ведь таких примеров в истории IT-индустрии было немало. В данном случае твердые документаль- ные доказательства перехода некоего Рубикона имеют место быть.

Во-первых, он связан с достижением интернетом уровня контентной зрелости и переходом в фазу ярко


Елена Ларина, Владимир Овчинский

КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ

 

выраженного экспоненциального развития. Эта фаза по- лучила название «информационный взрыв». Примерно, с 2008 года объем информации, вновь генерируемой в сети, стал удваиваться в течение примерно полутора- двух лет. На сегодняшний день можно привести следую- щие ключевые характеристики информационного взры- ва.

По данным компании Cisco, объем сгенерированных данных в 2012 году составил 2,8 зеттабайт и увеличится до 40 зеттабайт к 2020 г. Примерно треть передаваемых данных составляют автоматически сгенерированные данные, т.е. управляющие сигналы и информация, ха- рактеризующие работу машин, оборудования, устройств, присоединенных к интернету, или к интернету вещей. Причем с каждым годом доля интернета вещей или как его сегодня еще называют «интернета всего» растет в об- щем объеме мировых информационных потоков. На 40% ежегодно увеличивается объем корпоративной информа- ции, передаваемой и хранящейся в сети интернет.

Число пользователей интернета в мире к концу 2013 года составило 2,7 млрд. человек, или 39% населе- ния земли, а к 2016 году эта доля составит 65-75% насе- ления по данным Центра новостей ООН. Как ожидается, количество корпоративных пользователей интернета во всем мире увеличится с 1,6 миллиарда в 2011 году до 2,3 миллиарда в 2016 году.

Во-вторых, примерно в этот период времени появи- лись и стали доступны для корпоративных пользовате- лей принципиально новые IT-решения, позволяющие в режиме реального времени обрабатывать практически безразмерные массивы данных самого различного фор- мата. Причем эти решения сразу же стали реализовы- ваться не только как программные платформы, устанав- ливаемые на серверы, но и как облачные вычисления, где от организации не требовалось наличия дорогостоя- щей инфраструктуры компьютерного железа.


Глава 3 БОЛЬШИЕ ДАННЫЕ

 

В-третьих, к концу нулевых годов западные, пре- жде всего, американские поведенческие и когнитивные науки, с одной стороны получили широкое признание бизнес-сообщества и государств, а с другой – из фазы ис- следований и разработок перешли в стадию производ- ства эффективных технологий. Косвенным показателем этого процесса стал тот факт, что в течение нулевых го- дов три виднейших представителя поведенческих наук: Д. Канеман, Дж. Акерлоф и Р. Шиллер получили Нобе- левские премии по экономике. Экономика была выбра- на лишь потому, что Нобелевских премий в сфере наук о человеке просто не существует.

Теперь давайте вдумаемся, чем же, по сути, являет- ся интернет. Причем без разницы, о каком интернете мы говорим – об интернете людей или об интернете вещей. Не надо обладать глубокими техническими знаниями, чтобы понять, что фактически интернет является храни- лищем, своеобразным архивом следов человеческой деятельности. Причем, не только той деятельности, ко- торая реализована в конкретных поступках, действиях, событиях, но и архивом намерений, мнений, мыслей и отношений. Не зря автор знаменитых бестселлеров Маршалл Смит уподобил интернет толще земли, в кото- рой можно обнаружить след доисторического животно- го, умершего миллионы лет назад. По сути, в интернете ничего не исчезает. Даже популярные в постсноуденов- скую эпоху различного рода сервисы удаления аккаун- тов и других следов пребывания в сети, удаляют лишь те следы, которые доступны для наблюдения простыми пользователями, не вооруженными специальными про- граммами, доступными для корпораций и государств.

Соответственно формирование огромного, постоян- но пополняющегося архива поведенческой активности самых различных субъектов, от отдельных государств и огромных компаний до небольших групп и отдельных индивидуумов собственно и послужило базисом появ-


Елена Ларина, Владимир Овчинский

КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ

 

ления Больших Данных. C тех пор направление Больших Данных стало ведущим в сфере информационных техно- логий.

Анализ накопленного за последние годы опыта при- менения технологий Больших Данных позволяет выде- лить несколько ключевых черт, отличающих Большие Данные от всех других информационных технологий. К ним относятся:

• во-первых, огромные массивы разнородной ин- формации о процессах, явлениях, событиях, объектах, субъектах и т.п., пополняемые непрерывно в режиме он-лайн. Согласно имеющейся статистике 60% этой ин- формации носит неструктурированный, в основном тек- стовой характер и 40% составляет структурированная, или табличная информация. В последние годы в общем объеме Больших Данных постоянно нарастает доля ин- формации структурированного характера, поступающей от вещей, соединенных с интернетом – от холодильника до городской системы регулирования светофоров и т.п.;

• во-вторых, специально спроектированные про- граммные платформы, где Большие Данные любого объ- ема могут храниться в удобном для вычислений виде. Особо надо подчеркнуть, что эти архивы отличаются от привычных баз данных, которые приспособлены толь- ко для структурированной или табличной информации. Отличительной чертой этих хранилищ является то, что структурированная и неструктурированная информация могут обрабатываться совместно, как единое целое;

• в-третьих, наличие различного рода математиче- ского, прежде всего, статистического инструментария для обработки Больших Данных и получение результа- тов в виде, понятном для человека. Причем, при анализе Больших Данных используются не только традиционные методы математической статистики, но и алгоритмы рас- познавания образов, нейронные сети, построенные на основе аналогии с нервной системой и т.п.


Глава 3 БОЛЬШИЕ ДАННЫЕ

 

По данным различных исследований, не более 0,6% всей имеющейся сейчас информации подпадает под ка- тегорию Больших Данных, т.е. накапливается, хранится и перерабатывается. В этих же исследованиях указывает- ся, что потенциально в качестве Больших Данных может использоваться 23% всей хранимой в настоящее время информации. Т.е. фактически сейчас из всей этой инфор- мации используется как Большие Данные, т.е. обрабаты- вается, анализируется чуть больше 3%. Между тем, по- следние достижения в области создания платформ на- копления, хранения и обработки объемов данных всех форматов позволяют увеличить потенциальные Боль- шие Данные с 23% до примерно 40% всей передаваемой в сетях информации.

Еще в 2011 году McKinsey Global Institute объявил Большие Данные «следующим рубежом для инноваций, конкуренции и производительности». По данным цело- го ряда ведущих международных деловых изданий, уже сегодня Большие Данные дают заметный эффект в биз- несе. Например, выяснилось, что в транснациональных компаниях, входящих в список Fortune 500, где, казалось бы, до мелочей отлажены все процедуры и процессы, внедрение технологий Больших Данных на 5-7% увели- чило эффективность использования ресурсов – труда, основных производственных фондов, энергии и т.п. и на 7-9% обеспечило рост объемов продаж. Для среднего бизнеса показатели оказались в полтора-два раза выше. Причем, следует отметить, что данные получены в услови- ях, когда мировая экономика испытывает на себе послед- ствия глубочайшего финансово-экономического кризиса и экономический рост измеряется в лучшем случае 1-2%. На чем же базируется эффективность Больших Дан- ных? Технологии Больших Данных и прежде всего, мето- ды статистического анализа, компьютерного распозна- вания образов и т.п., применяемые на огромных, посто-

янно пополняемых массивах данных позволяют:


Елена Ларина, Владимир Овчинский

КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ

 

• проводить самые различные и сколь угодно под- робные классификации той или иной совокупности лю- дей, компаний, иных объектов по самым разнообраз- ным признакам. Такие классификации обеспечивают точное понимание взаимосвязи тех или иных характе- ристик любого объекта – от человека до компании или организации, с теми или иными его действиями;

• осуществлять многомерный статистический и иной математический анализ. Этот анализ позволяет находить корреляции между самыми различными параметрами, характеристиками, событиями и т.п. Корреляции не от- вечают на вопрос – почему. Они показывают вероят- ность, с которой при изменении одного фактора изменя- ется и другой. В каком-то смысле Большие Данные пред- ставляют собой альтернативный традиционной науке метод. Наука на основе теоретических моделей отвечает на вопрос – почему, а затем, получив ответ, делает реко- мендации, как действовать. В случае корреляции стадия поиска причины ликвидируется, а действие происходит в тех случаях, когда факторы тесно взаимосвязаны и на один из факторов легко или возможно осуществить це- ленаправленное воздействие;

• прогнозировать. На основе классификаций и ана- литических выкладок осуществляется прогнозирование. Суть прогнозирования состоит в том, чтобы на основе корреляции определить наиболее легкий способ воз- действия для того, чтобы один набор факторов, харак- теризующих тот или иной объект, лицо, компанию, со- бытие и т.п. был преобразован в другой.

Как любой новый технологический пакет, Большие Данные тут же обросли мифами и заблуждениями. Мно- гие из них постоянно усиливаются как самими произ- водителями программных продуктов в сфере Больших Данных, так и средствами массовой информации, вы- нужденными адаптировать сложные вопросы информа- ционных технологий для читателей, не обремененных излишними знаниями.


Глава 3 БОЛЬШИЕ ДАННЫЕ

 

Из всей совокупности мифов стоит выделить три главных. Именно они наносят наибольший вред техно- логиям Больших Данных и тормозят их практическое применение, в том числе в нашей стране.

Прежде всего, в маркетинговых целях приклады- ваются немалые усилия, чтобы представить технологии Больших Данных неким новым Святым Граалем. На них необоснованно возлагается роль панацеи от всех бед. Между тем, очевидно, что любой технологический пакет имеет строго определенные условия для своего приме- нения. Касательно Больших Данных таким ограничени- ем является сопоставимость текущей ситуации с ранее наблюдавшимися ситуациями, процессами, периодами времени и т.п. В качестве примера можно привести про- гнозирование потребительского поведения. Каждый человек на собственном опыте знает, что в ситуации умеренной инфляции он будет делать одни покупки, а при гиперинфляции его потребительское поведение ко- ренным образом изменится. Если уже имеются Большие Данные как по периоду с низким уровнем инфляции, так и ситуации гиперинфляционного шока, то технологии Больших Данных будут полезны. Они позволят распо- знать, к какому классу относится текущая ситуация, об- ратиться к соответствующим поведенческим паттернам, характеризуемым теми или иными параметрами, и по- зволят дать достаточно достоверный прогноз. А вот если Больших Данных по периоду гиперинфляции нет, а она наступила, то в такой ситуации технологии Больших Дан- ных будут бесполезны. Более того, их применение чре- вато непоправимыми ошибками. Этот пример показыва- ет: технологический пакет Больших Данных, также как и другие технологические пакеты имеют строгие условия, где его применение эффективно, а где – нет.

Бытует мнение, что Большие Данные могут приме- няться только государственными структурами и трансна- циональными корпорациями, и недоступны для других


Елена Ларина, Владимир Овчинский

КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ

 

субъектов. Связано это с дороговизной как серверной части, так и программных продуктов, требуемых для ра- боты с Большими Данными. И, наконец, с высокой зар- платой специалистов по Большим Данным. На практике в последние пару лет пользу из Больших Данных извле- кают не только гигантские, но и небольшие структуры. Это стало доступным благодаря облачным вычислениям. В этом случае небольшие структуры выступают конечны- ми пользователями технологического пакета, который получают как услугу. Использование этой технологии, как показывает опыт небольшого и среднего бизнеса в США, Западной Европе и Японии дает компаниям нео- споримые конкурентные преимущества по сравнению с бизнесами, которые подобными возможностями не рас- полагают.

Наконец, очень серьезным заблуждением является рассмотрение технологического пакета Больших Дан- ных как чисто машинной технологии. Многие государ- ственные и корпоративные структуры впустую затратили огромные суммы средств только потому, что все ресур- сы были направлены на закупку компьютерного железа и программных продуктов. При этом, затраты на кадры формировались по остаточному принципу. Между тем технологии Больших Данных требуют специалистов вы- сочайшего уровня квалификации, как правило, обладаю- щих образованием и профессиональными навыками не только в области информационных, но и гуманитарных наук. Сегодня, например, в США по оценкам экспертов не хватает от 50 до 70 тыс. специалистов по данным (data scientists). Большие Данные представляют собой не ма- шинную, а человеко-машинную технологию.

Это наглядно показал пример любимого детища АНБ, компании П. Тиля Palantir. Одна из версий про- граммы ориентирована на борьбу с мошенничествами в крупных финансовых структурах. Пока действовал чисто машинный вариант, система давала множество ложных


Глава 3 БОЛЬШИЕ ДАННЫЕ

 

срабатываний. При этом полностью выявлялись и реаль- ные случаи хищений, но они были смешаны с неточны- ми выводами. В результате за программу посадили ве- теранов служб экономической безопасности в качестве операторов. За короткий срок они обучились работе с программой и, используя человеческий опыт, выбирали из всей совокупности сигналов лишь те, которые указы- вали на реальные хищения.

По этому поводу руководитель одной из самых пер- спективных компаний в области прогнозирования Quid, также принадлежащей П. Тилю, Ш. Горли сказал: «Наи- больший эффект Большие Данные дают тогда, когда возможности компьютеров в обработке гигантских мас- сивов информации и выявлении нетривиальных связей соединены с человеческим опытом и профессиональной интуицией. А все, что вам рассказывает Р. Курцвейл про искусственный интеллект, это как минимум на ближай- шее будущее просто красивые истории и PR-ходы».

Подытоживая суть технологий Больших Данных, можно согласиться с краткой формулировкой консалтин- говой компании Forrester: «Большие Данные объединя- ют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности».

Большие Данные в первую очередь были использо- ваны в маркетинге, инвестиционном бизнесе, в прода- жах и т.п. Т.е. фактически там, где речь идет о косвенном, незаметном управлении поведением. Другой сферой применения Больших Данных стали процессы, описы- ваемые множеством параметров, где за счет изменения режима можно получить экономию того или иного ре- сурса. В этой связи за пределами маркетинга и продаж самыми активными пользователями Больших Данных стали государственные учреждения и энергетический сектор экономики.

Но это лишь надводная часть айсберга. А подводная часть, как известно, всегда намного больше и, если мож-


Елена Ларина, Владимир Овчинский

КИБЕРВОЙНЫ XXI ВЕКА. ВОЗМОЖНОСТИ И РИСКИ ДЛЯ РОССИИ

 

но так сказать, серьезнее. Подводной частью айсберга стало использование технологий Больших Данных в та- ких сферах как разведка и контрразведка, военное дело, геостратегия и то, что традиционно называлось инфор- мационными войнами, а фактически представляет со- бой форму жесткого когнитивного противоборства.

Большие Данные были быстро осознаны такими странами, как Соединенные Штаты, Великобритания и Япония, в качестве важнейшего ресурса стратегическо- го значения. 29 марта 2012 года администрация Б. Оба- мы выступила с инициативой «Big Data Research and Development Initiative». Инициативой предусматривают- ся вложение значительных объемов ресурсов и прове- дение комплексных мероприятий в целях активного ис- пользования технологий Больших Данных на ключевых направлениях государственной политики США. В рамках инициативы ежегодно в Вашингтоне проводятся боль- шие конференции «Big Data for government & defense».

В сентябре 2013 года правительство Японии опубли- ковало информацию о разработке национальной про- граммы по Большим Данным. Летом того же года прави- тельство Австралии заявило, что рассматривает Большие Данные как важнейший национальный стратегический ресурс и выдвинуло задачу стать головной страной в сфере использования технологий Больших Данных как на правительственном уровне, так и на всех других уров- нях государственного аппарата в масштабах Британского Содружества Наций.

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.