Рус | Eng

Ложь, явная ложь и мифы о работе с данными

Ложь, явная ложь и мифы о работе с данными

Нам часто говорят: если отслеживать данные, то правда будет раскрыта, но данные рассказывают множество историй, и то, как вы их интерпретируете, зависит от полученной  информации. Это заставляет задаваться вопросом, является ли хоть что-нибудь окончательным, если можно взять два одинаковых набора данных и сделать из них совершенно разные выводы, в зависимости от того, чему уделять внимание. Это связано с тем, что данные – только инструмент в руках человека, и мы можем интерпретировать их так, как сами того захотим. И давайте внесем ясность: это не потому, что мы сами желаем обманываться (хотя иногда именно так все и обстоит).  Это оттого, что будучи людьми, мы, сами того не замечая, можем использовать непредвиденные предубеждения по отношению к данным.

Во времена больших данных это огромная загадка. Как найти окончательные ответы, если, смотря на разные точки данных на одну и ту же тему, можно прийти к диаметрально противоположным выводам?

Обработка и анализ данных имеют значение

Пэм Бейкер, автор книги «Гадание по данным: стратегии больших данных», смотрит на все это с точки зрения науки о данных, но она по-прежнему признает: чтобы получить хорошие ответы, нужно задавать правильные вопросы.

"Данные выдаются по мере их релевантности к заданному вопросу. Существуют специальные алгоритмы, в которые используется несколько входов, определяемые как необходимые для ответа на вопрос", - отмечает Бейкер.

Она говорит, что у специалистов по обработке данных есть целый перечень инструментов, которые позволяют проделать всю работу, но ошибки могут быть всегда. "Возможность ошибки есть всегда, конечно, но наука о данных и статистика уже давно находили решения таких проблем - еще до того, как появилось понятие «большие данные». Но правда также в том, что если в алгоритме использовать неверные точки данных, то выдача в результате может быть несколько  некорректной или совершенно неправильной".

Насколько нам известно, на сегодняшний день специалистов по работе с данными недостаточно.  В большинстве случаев их единицы или же вовсе нет, поэтому компаниям не хватает знаний и квалификации, чтобы понимать данные и работать с ними. Но данными можно манипулировать и в результате получить ответы на интересующие вас вопросы.

На конференции Gilbane в Бостоне спикер в своем выступлении привел большое количество статистической информации, из которой следовало, что люди используют мало приложений и у абсолютного большинства их менее 10. Он также предположил, что 90 процентов пользователей не возражают против получения спама в виде SMS-сообщений. Было ли это просто случайностью, что он работал в компании, которая занимается рекламными решениями через SMS? Он привел много данных, из которых было ясно, что довольно глупо создавать приложение, если вы хотите привлечь внимание клиента.

Оратор, который выступал далее, выбрал другую точку данных – он сообщил, что мы скачиваем  154 000 приложений минуту. Так что же это? Как можно иметь всего 10 приложений и при этом постоянно скачивать такое большое количество новых? Когда вы видите ясно противоречивые данные, как в этом случае, становится довольно сложно однозначно ответить на вопросы. И именно в такой ситуации вспоминается крылатая фраза: "Есть ложь, явная ложь и статистика" – здесь она может быть более справедливой, чем мы себе это представляем.

Бизнес сталкивается с проблемой работы с данными

Когда мы предоставляем данные другим людям (не специалистами по их обработке и анализу), как это рекомендует Бейкер, эта информация может стать еще более ненадежной, особенно если эти люди работают в сфере маркетинга и могут использовать выводы, получаемые из данных, чтобы представить свои продукты и услуги в наилучшем свете. Ситуация может усугубиться, если выводы о рынке будут сделаны на основании плохой информации.

Скотт Лиевер, президент консалтинговой фирмы Digital Clarity Group, говорит, что это вполне реальная опасность. Он считает, что маркетологи должны быть готовы к тяжелой работе, если хотят получить правильные и достоверные исследования. Или же они могут использовать неверные данные, что приведет к принятию неправильных решений и направлению ресурсов компании в другое русло. "Каждый может использовать информацию так, что она покажет именно ту историю, о которой человек хочет рассказать, и для маркетологов это большая проблема", - сказал Лиевер. - Если они не знают, как управлять исследованиями и изучением данных, вполне возможно, что они примут неверные решения".

Бейкер соглашается, но при этом она говорит, что люди, которые непосредственно занимаются бизнесом, также могут быть очень полезны, поскольку знают свои рынки гораздо лучше, чем специалисты по обработке и анализу данных, и вместе можно было бы добиться лучших результатов. "Иногда те, кто работает в сфере маркетинга и продаж, понимают ситуацию лучше, чем специалисты по изучению данных. Именно поэтому важно иметь разнообразную команду для изучения и анализа данных", - говорит она.

Но Бейкер также предупреждает, что у обычных пользователей не всегда есть все необходимые данные. "Сейчас другие времена, бизнес-пользователи могут запутаться в данных и прийти к ошибочному выводу, потому что они не понимают статистических и других необходимых методов, которые нужно использовать для корректного выполнения этой работы".

Данные не всегда понятные и четкие, даже если вы будете осторожны

Ранее мы размещали статью о самых популярных инструментах работы, исходя из исследования, проведенного 451 Research. Это очень авторитетная компания, которая провела многомесячное изучение темы, прежде чем опубликовать данный отчет. В 451 Research  используют правильную методологию, и мы никоим образом не ставим под сомнение их компетентность, но, скорее, задаемся вопросом:  те ли вопросы они задавали и тем ли людям? Вместо того чтобы оценивать использование в общем, специалисты компании задавали вопросы о  лицензиях предприятия и потребителя. Возможно ли, что при других вопросах они увидели бы другую картину? Изучая материалы для данной статьи, мы поняли, что это не так просто, как может показаться на первый взгляд.

Прежде всего, данные 451 Research показали: более 40 процентов респондентов сообщили об использовании Dropbox, что для нас оказалось очень удивительным результатом. Использование Box занимает примерно четвертое место  - так, около 15 процентов респондентов ответили, что использовали Box, но эти данные не обязательно отображают реальную картину.

Практически все могут купить лицензию потребителя.  Каждый сервис предлагает определенное количество места для бесплатного хранения, и еще больше, если вы готовы за это платить. Например, у меня есть один терабайт Dropbox, за который я плачу 99$ в год. И эта версия очень сильно отличается от лицензии для предприятия, которая поставляется с различными инструментами, помогающими пользователю управлять всеми лицензиями в организации, и обеспечивает доступ к API, разрешая создавать продукт  на основе базового, который имеет отношение к другому производителю корпоративного программного обеспечения (такое предложение Dropbox выпущено 2 недели назад).

На прошлой неделе Илья Фушман, руководитель отдела продуктов для бизнеса компании Dropbox, рассказал, что недавно компания Dropbox перешла рубеж в 100000 бизнес-клиентов (некоторые из них - малые предприятия, а некоторые - крупные); это довольно впечатляющая цифра, если учесть, что продукт был запущен не так давно – в апреле 2013 года. Для сравнения: по информации Box, у них 39 000 бизнес-клиентов, но цифры не рассказывают всю историю, потому некоторые из клиентов Box - довольно крупные.

Например, с Box работают такие компании, как Eli Lilly, Toyota, DreamWorks, Comcast, MD Andersen и GlaxoSmithKline, а также недавно было продано 300 000 лицензий в рамках сделки с General Electric. Если сюда же  вы добавите 65000 лицензий Schneider Electric и еще 44000 - Procter and Gamble, вполне логично, что в итоге сделаете не такой вывод, как в 451 Research в своем исследовании, даже если судить только по количеству пользователей.

Довольно сложно узнать, сколько клиентов у Dropbox, потому что компания не афиширует эту информацию, но среди широко известных брендов можно назвать Hearst, Hyatt, Массачусетский технологический институт и News Corp, а также множество малых компаний.

Алан Пельц-Шарп, аналитик 451 Research, работавшая над вышеупомянутым исследованием, говорит, что они все еще трудятся над методологией, а данные, которые они сообщили, - только начало длительного процесса анализа этого рынка.

"Я считаю, что опрос, проведенный в октябре, выявил ряд вещей: во-первых, у Dropbox много клиентов-компаний (это неудивительно - в частности, конкуренты об этом точно знают). Это рынок очень незрелый, но он постоянно растет, и многие компании все еще с большой неохотой пользуются предложениями по использованию общедоступной облачной среды. С течением времени все эти тенденции станут все более интересными - и, поскольку это первый релиз нового исследования, то со временем такая информация станет представлять все больший интерес. Также следует добавить тот факт, что мы подробно изучаем рынок и прогнозируем доходы будущих периодов в этой сфере", - написал Алан Пельц-Шарп.

Конечно, данные имеют большое значение, но даже если вы будете осторожны, то можно прийти к неоднозначным толкованиям. Это происходит потому, что даже со всеми имеющимися данными картина не всегда бывает полной. Очевидно, что вы должны быть уверены, что информация получена на основе точных и корректных вопросов, что более или менее гарантирует ее достоверность. Но даже в таком случае есть шанс получить совершенно неожиданные результаты, что доказывает: аналитика данных – не такое простое дело, как может показаться.

Назад
Другие новости