Энциклопедия маркетинга. Обзор методов статистического анализа данных

Подписаться
Вступай в сообщество «i-topmodel.ru»!
ВКонтакте:

По сути, интеллектуальный анализ данных - это обработка информации и выявление в ней моделей и тенденций, которые помогают принимать решения. Принципы интеллектуального анализа данных известны в течение многих лет, но с появлением больших данных они получили еще более широкое распространение.

Большие данные привели к взрывному росту популярности более широких методов интеллектуального анализа данных, отчасти потому, что информации стало гораздо больше, и она по самой своей природе и содержанию становится более разнообразной и обширной. При работе с большими наборами данных уже недостаточно относительно простой и прямолинейной статистики. Имея 30 или 40 миллионов подробных записей о покупках, недостаточно знать, что два миллиона из них сделаны в одном и том же месте. Чтобы лучше удовлетворить потребности покупателей, необходимо понять, принадлежат ли эти два миллиона к определенной возрастной группе, и знать их средний заработок.

Эти бизнес-требования привели от простого поиска и статистического анализа данных к более сложному интеллектуальному анализу данных. Для решения бизнес-задач требуется такой анализ данных, который позволяет построить модель для описания информации и в конечном итоге приводит к созданию результирующего отчета. Этот процесс иллюстрирует .

Рисунок 1. Схема процесса

Процесс анализа данных, поиска и построения модели часто является итеративным, так как нужно разыскать и выявить различные сведения, которые можно извлечь. Необходимо также понимать, как связать, преобразовать и объединить их с другими данными для получения результата. После обнаружения новых элементов и аспектов данных подход к выявлению источников и форматов данных с последующим сопоставлением этой информации с заданным результатом может измениться.

Инструменты интеллектуального анализа данных

Интеллектуальный анализ данных ― это не только используемые инструменты или программное обеспечение баз данных. Интеллектуальный анализ данных можно выполнить с относительно скромными системами баз данных и простыми инструментами, включая создание своих собственных, или с использованием готовых пакетов программного обеспечения. Сложный интеллектуальный анализ данных опирается на прошлый опыт и алгоритмы, определенные с помощью существующего программного обеспечения и пакетов, причем с различными методами ассоциируются разные специализированные инструменты.

Например, IBM SPSS®, который уходит корнями в статистический анализ и опросы, позволяет строить эффективные прогностические модели по прошлым тенденциям и давать точные прогнозы. IBM InfoSphere® Warehouse обеспечивает в одном пакете поиск источников данных, предварительную обработку и интеллектуальный анализ, позволяя извлекать информацию из исходной базы прямо в итоговый отчет.

В последнее время стала возможна работа с очень большими наборами данных и кластерная/крупномасштабная обработка данных, что позволяет делать еще более сложные обобщения результатов интеллектуального анализа данных по группам и сопоставлениям данных. Сегодня доступен совершенно новый спектр инструментов и систем, включая комбинированные системы хранения и обработки данных.

Можно анализировать самые разные наборы данных, включая традиционные базы данных SQL, необработанные текстовые данные, наборы "ключ/значение" и документальные базы. Кластерные базы данных, такие как Hadoop, Cassandra, CouchDB и Couchbase Server, хранят и предоставляют доступ к данным такими способами, которые не соответствуют традиционной табличной структуре.

В частности, более гибкий формат хранения базы документов придает обработке информации новую направленность и усложняет ее. Базы данных SQL строго регламентируют структуру и жестко придерживаются схемы, что упрощает запросы к ним и анализ данных с известными форматом и структурой.

Документальные базы данных, которые соответствуют стандартной структуре типа JSON, или файлы с некоторой машиночитаемой структурой тоже легко обрабатывать, хотя дело может осложняться разнообразной и переменчивой структурой. Например, в Hadoop, который обрабатывает совершенно "сырые" данные, может быть трудно выявить и извлечь информацию до начала ее обработки и сопоставления.

Основные методы

Несколько основных методов, которые используются для интеллектуального анализа данных, описывают тип анализа и операцию по восстановлению данных. К сожалению, разные компании и решения не всегда используют одни и те же термины, что может усугубить путаницу и кажущуюся сложность.

Рассмотрим некоторые ключевые методы и примеры того, как использовать те или иные инструменты для интеллектуального анализа данных.

Ассоциация

Ассоциация (или отношение), вероятно, наиболее известный, знакомый и простой метод интеллектуального анализа данных. Для выявления моделей делается простое сопоставление двух или более элементов, часто одного и того же типа. Например, отслеживая привычки покупки, можно заметить, что вместе с клубникой обычно покупают сливки.

Создать инструменты интеллектуального анализа данных на базе ассоциаций или отношений нетрудно. Например, в InfoSphere Warehouse есть мастер, который выдает конфигурации информационных потоков для создания ассоциаций, исследуя источник входной информации, базис принятия решений и выходную информацию. приведен соответствующий пример для образца базы данных.

Рисунок 2. Информационный поток, используемый при подходе ассоциации

Классификация

Классификацию можно использовать для получения представления о типе покупателей, товаров или объектов, описывая несколько атрибутов для идентификации определенного класса. Например, автомобили легко классифицировать по типу (седан, внедорожник, кабриолет), определив различные атрибуты (количество мест, форма кузова, ведущие колеса). Изучая новый автомобиль, можно отнести его к определенному классу, сравнивая атрибуты с известным определением. Те же принципы можно применить и к покупателям, например, классифицируя их по возрасту и социальной группе.

Кроме того, классификацию можно использовать в качестве входных данных для других методов. Например, для определения классификации можно применять деревья принятия решений. Кластеризация позволяет использовать общие атрибуты различных классификаций в целях выявления кластеров.

Исследуя один или более атрибутов или классов, можно сгруппировать отдельные элементы данных вместе, получая структурированное заключение. На простом уровне при кластеризации используется один или несколько атрибутов в качестве основы для определения кластера сходных результатов. Кластеризация полезна при определении различной информации, потому что она коррелируется с другими примерами, так что можно увидеть, где подобия и диапазоны согласуются между собой.

Метод кластеризации работает в обе стороны. Можно предположить, что в определенной точке имеется кластер, а затем использовать свои критерии идентификации, чтобы проверить это. График, изображенный на , демонстрирует наглядный пример. Здесь возраст покупателя сравнивается со стоимостью покупки. Разумно ожидать, что люди в возрасте от двадцати до тридцати лет (до вступления в брак и появления детей), а также в 50-60 лет (когда дети покинули дом) имеют более высокий располагаемый доход.

Рисунок 3. Кластеризация

В этом примере видны два кластера, один в районе $2000/20-30 лет и другой в районе $7000-8000/50-65 лет. В данном случае мы выдвинули гипотезу и проверили ее на простом графике, который можно построить с помощью любого подходящего ПО для построения графиков. Для более сложных комбинаций требуется полный аналитический пакет, особенно если нужно автоматически основывать решения на информации о ближайшем соседе .

Такое построение кластеров являет собой упрощенный пример так называемого образа ближайшего соседа . Отдельных покупателей можно различать по их буквальной близости друг к другу на графике. Весьма вероятно, что покупатели из одного и того же кластера разделяют и другие общие атрибуты, и это предположение можно использовать для поиска, классификации и других видов анализа членов набора данных.

Метод кластеризации можно применить и в обратную сторону: учитывая определенные входные атрибуты, выявлять различные артефакты. Например, недавнее исследование четырехзначных PIN-кодов выявили кластеры чисел в диапазонах 1-12 и 1-31 для первой и второй пар. Изобразив эти пары на графике, можно увидеть кластеры, связанные с датами (дни рождения, юбилеи).

Прогнозирование

Прогнозирование ― это широкая тема, которая простирается от предсказания отказов компонентов оборудования до выявления мошенничества и даже прогнозирования прибыли компании. В сочетании с другими методами интеллектуального анализа данных прогнозирование предполагает анализ тенденций, классификацию, сопоставление с моделью и отношения. Анализируя прошлые события или экземпляры, можно предсказывать будущее.

Например, используя данные по авторизации кредитных карт, можно объединить анализ дерева решений прошлых транзакций человека с классификацией и сопоставлением с историческими моделями в целях выявления мошеннических транзакций. Если покупка авиабилетов в США совпадает с транзакциями в США, то вполне вероятно, что эти транзакции подлинны.

Последовательные модели

Последовательные модели, которые часто используются для анализа долгосрочных данных, ― полезный метод выявления тенденций, или регулярных повторений подобных событий. Например, по данным о покупателях можно определить, что в разное время года они покупают определенные наборы продуктов. По этой информации приложение прогнозирования покупательской корзины, основываясь на частоте и истории покупок, может автоматически предположить, что в корзину будут добавлены те или иные продукты.

Деревья решений

Дерево решений, связанное с большинством других методов (главным образом, классификации и прогнозирования), можно использовать либо в рамках критериев отбора, либо для поддержки выбора определенных данных в рамках общей структуры. Дерево решений начинают с простого вопроса, который имеет два ответа (иногда больше). Каждый ответ приводит к следующему вопросу, помогая классифицировать и идентифицировать данные или делать прогнозы.

Рисунок 5. Подготовка данных

Источник данных, местоположение и база данных влияют на то, как будет обрабатываться и объединяться информация.

Опора на SQL

Наиболее простым из всех подходов часто служит опора на базы данных SQL. SQL (и соответствующая структура таблицы) хорошо понятен, но структуру и формат информации нельзя игнорировать полностью. Например, при изучении поведения пользователей по данным о продажах в модели данных SQL (и интеллектуального анализа данных в целом) существуют два основных формата, которые можно использовать: транзакционный и поведенческо-демографический.

При работе с InfoSphere Warehouse создание поведенческо-демографической модели в целях анализа данных о покупателях для понимания моделей их поведения предусматривает использование исходных данных SQL, основанных на информации о транзакциях, и известных параметров покупателей с организацией этой информации в заранее определенную табличную структуру. Затем InfoSphere Warehouse может использовать эту информацию для интеллектуального анализа данных методом кластеризации и классификации с целью получения нужного результата. Демографические данные о покупателях и данные о транзакциях можно скомбинировать, а затем преобразовать в формат, который допускает анализ определенных данных, как показано на .

Рисунок 6. Специальный формат анализа данных

Например, по данным о продажах можно выявить тенденции продаж конкретных товаров. Исходные данные о продажах отдельных товаров можно преобразовать в информацию о транзакциях, в которой идентификаторы покупателей сопоставляются с данными транзакций и кодами товаров. Используя эту информацию, легко выявить последовательности и отношения для отдельных товаров и отдельных покупателей с течением времени. Это позволяет InfoSphere Warehouse вычислять последовательную информацию, определяя, например, когда покупатель, скорее всего, снова приобретет тот же товар.

Из исходных данных можно создавать новые точки анализа данных. Например, можно развернуть (или доработать) информацию о товаре путем сопоставления или классификации отдельных товаров в более широких группах, а затем проанализировать данные для этих групп, вместо отдельных покупателей.

Рисунок 7. Структура MapReduce

В предыдущем примере мы выполнили обработку (в данном случае посредством MapReduce) исходных данных в документальной базе данных и преобразовали ее в табличный формат в базе данных SQL для целей интеллектуального анализа данных.

Для работы с этой сложной и даже неструктурированной информацией может потребоваться более тщательная подготовка и обработка. Существуют сложные типы и структуры данных, которые нельзя обработать и подготовить в нужном вам виде за один шаг. В этом случае можно направить выход MapReduce либо для последовательного преобразования и получения необходимой структуры данных, как показано на , либо для индивидуального изготовления нескольких таблиц выходных данных.

Рисунок 8. Последовательная цепочка вывода результатов обработки MapReduce

Например, за один проход можно взять исходную информацию из документальной базы данных и выполнить операцию MapReduce для получения краткого обзора этой информации по датам. Хорошим примером последовательного процесса является регенеририрование информации и комбинирование результатов с матрицей решений (создается на втором этапе обработки MapReduce) с последующим дополнительным упрощением в последовательную структуру. На этапе обработки MapReduce требуется, чтобы весь набор данных поддерживал отдельные шаги обработки данных.

Независимо от исходных данных, многие инструменты могут использовать неструктурированные файлы, CSV или другие источники данных. Например, InfoSphere Warehouse в дополнение к прямой связи с хранилищем данных DB2 может анализировать неструктурированные файлы.

Заключение

Интеллектуальный анализ данных - это не только выполнение некоторых сложных запросов к данным, хранящимся в базе данных. Независимо от того, используете ли вы SQL, базы данных на основе документов, такие как Hadoop, или простые неструктурированные файлы, необходимо работать с данными, форматировать или реструктурировать их. Требуется определить формат информации, на котором будет основываться ваш метод и анализ. Затем, когда информация находится в нужном формате, можно применять различные методы (по отдельности или в совокупности), не зависящие от требуемой базовой структуры данных или набора данных.

10.2. Интеллектуальный анализ данных ( Data Mining )

Сфера закономерностей отличается от двух предыдущих тем, что в ней накопленные сведения автоматически обобщают­ся до информации , которая может быть охарактеризована КАК ЗНАНИЯ .

Технология data mining (DM) заняла свои позиции в последнее десятилетие, получив центральную роль во многих сферах бизнеса.

    Все мы являемся объектами применения Data Mining десятки раз в день - начиная от получения почтовых рассылок, конкурсы в магазинах, бесплатные газеты на улице и заканчивая применением алгоритмов выявления мошенничества, анализирующих любую покупку по кредитной карте.

    Причина широкого распространения методов data mining: они дают хорошие результаты. Технология позволяет существенно повысить возможности организации в достижении целей.

    Ее популярность растет, поскольку инструменты совершенствуются, получают широкое применение, дешевеют и становятся проще в использовании .

Существует два термина, переводимые как интеллектуальный анализ данных (ИАД) – это Knowledge Discovery in Databases (KDD) и Data Mining (DM).

Интеллектуальный анализ данных – это процесс поиска в сырых данных 1) корреляций, тенденций, взаимосвязей, ассоциаций и закономерностей посредством различных 2) математических и статистических алгоритмов.

    Большинство методов ИАД было пер­воначально разработано в рамках теории искусственного ин­теллекта в 1970-1080-х годах. Но они получили распространение только в 1990-е годы, когда проблема интеллектуализации обработки больших и быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных.

Цель этого поиска (стадии ИАД) –

        1) Подготовить данные в виде, четко отражающем бизнес-процессы.

        2) Построить модели, при помощи которых можно прогнозировать процессы, критичные для планирования бизнеса:

        • (2a) выполнить проверку и оценку моделей;

        3) Проводить исторический анализ данных для принятия решений:

        • (3а) выбор и применение модели;

          (3б) коррекция и обновление моделей.

Классификация задач ИАД по типам извлекаемой информации

В большинстве случаев классификацию задач ИАД проводят по типам производимой информации . Задачи (модели) Data Mining делятся на 2 класса:

    (1) прогнозирующие модели с их помощью осуществляется прогноз числовых значений атрибутов .

    (2) описательные (дескриптивные) модели , которые описывают общие закономерности предметной области.

Наиболее яркий представитель первого класса – задача классификации.

1. Классификация – это выявление признаков, набора правил, характеризующих группу.

Наиболее распространенная задача ИАД. Она позволяет выявить признаки, характеризующие однотипные группы объектов (классы), для того чтобы по известным значениям этих характеристик можно было отнести новый объект к одному классу.

    Типичный пример использова­ния классификации - конкурентная борьба между поставщи­ками товаров и услуг за определенные группы клиентов. Классификация способна помочь определить характеристи­ки неустойчивых клиентов, склонных перейти к другому по­ставщику, что позволяет найти оптимальную стратегию их удержания от этого шага (посредством предоставления ски­док, льгот или даже с помощью индивидуальной работы с представителями "групп риска" ).

При помощи классификационной модели решаются следующие задачи:

    принадлежит ли новый клиент к одному из набора существующих классов;

    подходит ли пациенту определенный курс лечения;

    выявление групп ненадежных клиентов;

    определение групп клиентов, которым следует рассылать каталог с новой продукцией.

В качестве методов решения задачи классификации могут использоваться:

      алгоритмы ти­па Lazy-Learning, в том числе известные алгоритмы бли­жайшего соседа (Nearest Neighbor) и k-ближайшего соседа (k-Nearest Neighbor),

      байесовские сети (Bayesian Networks) или нейронные сети.

      классификация с помощью деревьев решений;

      классификация методом опорных векторов;

      статистические методы, в частности, линейная регрессия;

      классификация CBR-методом;

      классификация при помощи генетических алгоритмов.

Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта , которым можно оперировать, используя математический аппарат классификации. Таким описанием обычно выступает база данных . Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта. Набор исходных данных разбивают на два множества: обучающее и тестовое.

        Обучающее множество (training set ) - множество, которое включает данные, использующиеся для обучения (конструирования) модели.

        Тестовое (test set ) множество используется для проверки работоспособности модели.

Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество - две трети данных и тестовое - одна треть данных . Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться

Процесс классификации состоит из двух этапов: конструирования модели и ее использования.

    Конструирование модели: описание множества предопределенных классов .

Каждый пример набора данных относится к одному предопределенному классу.

На этом этапе используется обучающее множество, на нем происходит конструирование модели. Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

    Использование модели: классификация новых или неизвестных значений.

Оценка правильности (точности) модели.

        А) Известные значения из тестового примера сравниваются с результатами использования полученной модели.

        Б) Уровень точности - процент правильно классифицированных примеров в тестовом множестве.

        В) Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.

Если полученная точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Точность классификации: оценка уровня ошибок

Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.

Наиболее яркие представители второго класса – задачи кластеризации, ассоциации, последовательности и т.д.

Рис. Сравнение задач классификации и кластеризации

2. Кластеризация – это выделение однородных групп данных.

Логически продолжает идею классификации на более сложный случай, когда сами классы не предопре­делены. Результатом использования метода, выполняющего кластеризацию, как раз является определение (посредством свободного поиска) присущего исследуемым данным разбие­ния на группы.

    В приведенном выше примере "группы риска" - категории клиентов, готовых уйти к другому поставщику - средствами кластеризации могут быть определены до начала процесса ухода, что позволит производить профилактику проблемы, а не экстренное ис­правление положения.

В качестве используемых методов - обучение "без учителя" особого вида нейронных сетей - сетей Кохонена, а также индукцию правил.

Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".

Цель кластеризации - поиск существующих структур . Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".

Само понятие "кластер" определено неоднозначно: в каждом исследовании свои "кластеры". Переводится понятие кластер (cluster) как "скопление", "гроздь".

Кластер можно охарактеризовать как группу объектов, имеющих общие свойства.

Характеристиками кластера можно назвать два признака:

        внутренняя однородность;

        внешняя изолированность.

Кластеры могут быть непересекающимися, или эксклюзивными (non-overlapping, exclusive), и пересекающимися (overlapping).

Оценка качества кластеризации может быть проведена на основе следующих процедур:

    ручная проверка;

    установление контрольных точек и проверка на полученных кластерах;

    определение стабильности кластеризации путем добавления в модель новых переменных ;

    создание и сравнение кластеров с использованием различных методов . Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации.

Кластерный анализ в маркетинговых исследованиях

В маркетинговых исследованиях кластерный анализ применяется достаточно широко - как в теоретических исследованиях, так и практикующими маркетологами, решающими проблемы группировки различных объектов. При этом решаются вопросы о группах клиентов, продуктов и т.д.

Одной из наиболее важных задач при применении кластерного анализа в маркетинговых исследованиях является анализ поведения потребителя , а именно:

    группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение.

Важной задачей, которую может решить кластерный анализ, является позиционирование, т.е. определение ниши, в которой следует позиционировать новый продукт , предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке , в которых можно предлагать существующие товары или разрабатывать новые.

Кластерный анализ также может быть удобен, например, для анализа клиентов компании . Для этого все клиенты группируются в кластеры, и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет существенно сократить объекты анализа, и, в то же время, индивидуально подойти к каждой группе клиентов.

3. Ассоциативные правила – поиск связанных друг с другом событий.

Ассоциация определяется не на основе значений свойств одного объекта или события, а имеет место между двумя или несколькими одновременно наступающими собы­тиями . При этом производимые правила указывают на то, что при наступлении одного события с той или иной степенью вероятности наступает другое. Количественно сила ассо­циации определяется несколькими величинами; например, возможно использование следующих трех характеристики:

    а) предсказуемость (predictability ) определяет, как час­то события Х и Y случаются вместе, в виде доли от общего числа событий X;

Так, в случае покупки телевизора (X) одно­временно покупается видеомагнитофон в 65% случаев (Y);

    б) распространенность (prevalence) показывает, как часто происходит одновременное наступление событий Х и Y отно­сительно общего числа моментов зафиксированных событий;

Иными словами, насколько часто производится одновремен­ная покупка телевизора и видеомагнитофона среди всех сделанных покупок;

    в) ожидаемая предсказуемость (expected predictability) показывает предсказуемость, которая сложилась бы при отсутствии взаимосвязи между событиями;

Например, как часто покупался бы видеомагнитофон безотносительно к то­му, покупался ли телевизор.

4. Выявление последовательностей – поиск цепочек, связанных во времени событий.

Подобно ассоциациям, по­следовательности имеют место между событиями, но насту­пающими не одновременно, а с некоторым определенным раз­рывом во времени. Таким образом, ассоциация есть частный случай последовательности с нулевым временным лагом.

Если видеомагнитофон не был куплен вместе с телевизором, то в течение месяца после покупки нового телевизо­ра покупка видеомагнитофона производится в 51% случаев.

5. Прогнозирование – попытка найти шаблоны, адекватно отражающие динамику поведения системы, т.е. предсказание поведения системы в будущем на основе исторической информации.

Форма предсказания, которая на основе особенностей поведения текущих и исторических данных оценивает будущие значения определенных числен­ных показателей.

В задачах подобного типа наиболее часто используются традиционные методы ма­тематической статистики, а также нейронные сети.

Прогнозирование (от греческого Prognosis), в широком понимании этого слова, определяется как опережающее отражение будущего. Целью прогнозирования является предсказание будущих событий.

Решение задачи прогнозирования сводится к решению таких подзадач:

    выбор модели прогнозирования;

    анализ адекватности и точности построенного прогноза.

Задачи классификации и прогнозирования - сходства и различия.

Так в чем же сходство задач прогнозирования и классификации ?

При решении обеих задач используется двухэтапный процесс построения модели на основе обучающего набора и ее использования для предсказания неизвестных значений зависимой переменной.

Различие задач классификации и прогнозирования состоит в том, что в первой задаче предсказывается класс зависимой переменной, а во второй - числовые значения зависимой переменной, пропущенные или неизвестные (относящиеся к будущему).

Например, рассматривая туристическое агентство, определение класса клиента является решением задачи классификации, а прогнозирование дохода, который принесет этот клиент в будущем году, будет решением задачи прогнозирования.

Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов .

Два принципиальных отличия временного ряда от простой последовательности наблюдений:

    Члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми .

    Члены временного ряда не являются одинаково распределенными .

Тренд, сезонность и цикл

Основными составляющими временного ряда являются тренд и сезонная компонента.

Тренд является систематической компонентой временного ряда, которая может изменяться во времени. Трендом называют неслучайную функцию , которая формируется под действием общих или долговременных тенденций, влияющих на временной ряд.

Сезонная составляющая временного ряда является периодически повторяющейся компонентой временного ряда. Свойство сезонности означает , что через примерно равные промежутки времени форма кривой, которая описывает поведение зависимой переменной, повторяет свои характерные очертания.

Свойство сезонности важно при определении количества ретроспективных данных, которые будут использоваться для прогнозирования.

Важно не путать понятия сезонной компоненты ряда и сезонов природы . Несмотря на близость их звучания, эти понятия разнятся. Так, например, объемы продаж мороженого летом намного больше, чем в другие сезоны, однако это является тенденцией спроса на данный товар!!!

Фрагмент временного ряда за сезонный период

Фрагмент временного ряда за 12 сезонных периодов

Период прогнозирования - основная единица времени, на которую делается прогноз.

    Например, мы хотим узнать доход компании через месяц. Период прогнозирования для этой задачи - месяц.

Горизонт прогнозирования - это число периодов в будущем, которые покрывает прогноз.

    Если прогноз на 12 месяцев вперед, с данными по каждому месяцу, то период прогнозирования в этой задаче - месяц, горизонт прогнозирования - 12 месяцев.

Интервал прогнозирования - частота, с которой делается новый прогноз.

    Интервал прогнозирования может совпадать с периодом прогнозирования.

Точность прогноза характеризуется ошибкой прогноза.

Наиболее распространенные виды ошибок:

    Средняя ошибка (СО). Она вычисляется простым усреднением ошибок на каждом шаге. Недостаток этого вида ошибки - положительные и отрицательные ошибки аннулируют друг друга.

    Средняя абсолютная ошибка (САО). Она рассчитывается как среднее абсолютных ошибок. Если она равна нулю, то мы имеем совершенный прогноз. В сравнении со средней квадратической ошибкой, эта мера "не придает слишком большого значения" выбросам.

    Сумма квадратов ошибок (SSE), среднеквадратическая ошибка . Она вычисляется как сумма (или среднее) квадратов ошибок. Это наиболее часто используемая оценка точности прогноза.

    Относительная ошибка (ОО). Предыдущие меры использовали действительные значения ошибок. Относительная ошибка выражает качество подгонки в терминах относительных ошибок.

6. Аномалии – выявление аномальных значений в данных.

Их выявление позволяет выявить – 1) ошибки в данных, 2) появлении новой ранее неизвестной закономерности или 3) уточнение известных закономерностей.

Положения, полученные из чисто
логических средств, при сравнении
с действительностью оказываются
совершенно пустыми.
А. Эйнштейн

Как правильно провести анализ и классификацию данных? Зачем нужны графики и диаграммы?

Урок-практикум

Цель работы . Научиться проводить классификацию и анализировать данные, полученные из текста.

План работы . 1. Проанализировать текст с целью определения существенных свойств предмета, о котором говорится. 2. Структурировать содержание текста с целью выделения классов объектов, о которых говорится. 3. Понять роль логических схем, графиков, диаграмм для осмысления изучаемого материала, установления логических связей, систематизации.

Проанализируйте текст. Для этого вам нужно мысленно определить в тексте предмет - существенное. Выделить, расчленить его на составные части, чтобы найти отдельные элементы, признаки, стороны этого предмета.

Иван Крамской. Д. И. Менделеев

Чьими портретами ученых-систематизаторов вы бы дополнили этот ряд?

ПОРТРЕТ ШАРОВОЙ МОЛНИИ . «Портрет загадочного феномена природы - шаровой молнии выполнили специалисты главной геофизической обсерватории им. А. И. Воейкова, воспользовавшись услугами ЭВМ и., методами криминалистики. «Фоторобот» таинственной незнакомки был составлен на основе данных, опубликованных в печати за три столетия, итогов исследовательских опросов и сообщений очевидцев разных стран.

Какие же из своих секретов сообщил ученым парящий сгусток энергии?

Замечают его большей частью во время гроз. Во все времена встречались четыре формы шаровой молнии: сфера, овал, диск, стержень. Порождение атмосферного электричества, естественно, большей частью возникало в воздухе. Однако, по данным американских опросов, с равной частотой молнию можно увидеть и осевшей на различных предметах - телеграфных столбах, деревьях, домах. Размеры удивительной спутницы гроз от 15 до 40 см. Цвет? Три четверти очевидцев следили за сверкающими шарами красного, желтого и розового цвета.

Жизнь сгустка электрической плазмы по истине мотыльковая, как правило в пределах пяти секунд. Дольше этого срока, но не более 30 с, ее видело до 36 % очевидцев. Почти всегда и кончина ее была одинаковой - она самопроизвольно взрывалась, иногда натыкаясь на различные препятствия. «Коллективные портреты», сделанные наблюдателями разных времен и народов, совпали».

Если вы, прочитав текст, сумели ответить на вопросы, о чем говорится в тексте, каковы основные признаки, элементы, стороны, свойства предмета рассуждений, значит, вы провели его анализ. В данном случае предметом, основным содержанием текста является представление о шаровой молнии. Свойства шаровой молнии - ее внешний вид: размер, форма, цвет, а также время жизни, особенности поведения.

На основе анализа текста определите его логическую структуру. Предложите формы работы с этим текстом для его усвоения, запоминания, использования его как интересного, необычного материала в вашей дальнейшей учебной работе - в дискуссиях, выступлениях.

ПОДСКАЗКА . Можно составить план этого текста, его конспект, тезисы (обобщения и выводы, которые вы считаете главными мыслями текста). Полезно выделить то, что является для вас новым, незнакомым в материале. Можно также составить логическую схему материала. Для этого, проанализировав текст, выделите значимую для вас информацию, попытайтесь объединить ее в группы, показать связи между этими группами.

Использование таблиц, графиков, диаграмм помогает нам проводить систематизацию при изучении естественно-научных предметов. Пусть в нашем распоряжении имеются данные о среднемесячных дневных температурах за один год для Санкт-Петербурга и для Сочи. Требуется с целью выявления каких-либо закономерностей проанализировать и систематизировать этот материал.

Представим разрозненный набор данных в виде таблицы, затем в виде графика и диаграммы (рис. 5, 6). Найдите закономерности в распределении температуры. Ответьте на вопросы:

  1. Каковы особенности распределения температур по месяцам в разных городах? Чем различаются эти распределения?
  2. В чем причина процессов, которые приводят к такому распределению?
  3. Помогла ли вам выполнить задание систематизация материала с помощью графика, диаграммы?

Среднемесячные дневные температуры за один год для Санкт-Петербурга и Сочи

Рис. 5. График хода среднемесячных дневных температур за один год для Санкт-Петербурга и Сочи

Рис. 6. Диаграмма: среднемесячные дневные температуры за один год в городах Санкт-Петербург и Сочи

Важными ступенями к овладению методами научного познания являются:

  1. Логический анализ текста.
  2. Составление плана, схем, выделение структуры материала.
  3. Конспектирование текста или написание тезисов.
  4. Выделение нового знания и его использование в дискуссиях, выступлениях, в решении новых задач, проблем.

Литература для дополнительного чтения

  1. Эйнштейн А. Без формул / А. Эйнштейн; сост. К. Кедров; пер. с англ. - М.: Мысль. 2003.
  2. Методология науки и научный прогресс. - Новосибирск: Наука. 1981.
  3. Фейрабенд П. Избранные труды по методологии науки / П. Фейрабенд. - М.: Прогресс, 1986

В прошлом году компания «Авито» провела целый ряд конкурсов. В том числе - конкурс по распознаванию марок автомобилей, победитель которого, Евгений Нижибицкий, рассказал на тренировке о своём решении.


Постановка задачи . По изображениям автомобилей необходимо определить марку и модель. Метрикой служила точность предсказаний, то есть доля правильных ответов. Выборка состояла из трёх частей: первая часть была доступна для обучения изначально, вторая была дана позже, а на третьей требовалось показать финальные предсказания.


Вычислительные ресурсы . Я воспользовался домашним компьютером, который обогревал мою комнату всё это время, и предоставленными на работе серверами.

Обзор моделей . Раз наша задача - на распознавание, то первым делом хочется воспользоваться прогрессом в уровне качества классификации изображений на всем известном ImageNet . Как известно, современные архитектуры позволяют достигнуть даже более высокого качества, чем у человека. Поэтому я начал с обзора свежих статей и собрал сводную таблицу архитектур, реализаций и качеств на основе ImageNet.


Заметим, что наилучшее качество достигается на архитектурах и .

Fine-tuning сетей . Обучать глубокую нейронную сеть с нуля - довольно затратное по времени занятие, к тому же не всегда эффективное с точки зрения результата. Поэтому часто используется техника дообучения сетей: берётся уже обученная на ImageNet сеть, последний слой заменяется на слой с нужным количеством классов, а потом продолжается настройка сети с низким темпом обучения, но уже на данных из конкурса. Такая схема позволяет обучить сеть быстрее и с более высоким качеством.

Первый подход к дообучению GoogLeNet показал примерно 92% точности при валидации.

Предсказания на кропах . Используя нейронную сеть для предсказания на тестовой выборке, можно улучшить качество. Для этого следует выреза́ть фрагменты подходящего размера в разных местах исходной картинки, после чего усреднять результаты. Кроп 1x10 означает, что взят центр изображения, четыре угла, а потом всё то же самое, но отражённое по горизонтали. Как видно, качество возрастает, однако время предсказания увеличивается.

Валидация результатов . После появления выдачи второй части выборки я разбил выборку на несколько частей. Все дальнейшие результаты показаны на этом разбиении.

ResNet-34 Torch . Можно воспользоваться готовым репозиторием авторов архитектуры, но, чтобы получить предсказания на тесте в нужном формате, приходится исправлять некоторые скрипты. Кроме того, нужно решать проблемы большого потребления памяти дампами. Точность при валидации - около 95%.


Inception-v3 TensorFlow . Тут тоже использовалась готовая реализация, но была изменена предобработка изображений, а также ограничена обрезка картинок при генерации батча. Итог - почти 96% точности.


Ансамбль моделей . В итоге получилось две модели ResNet и две модели Inception-v3. Какое качество при валидации можно получить, смешивая модели? Вероятности классов усреднялись с помощью геометрического среднего. Веса (в данном случае - степени) подбирались на отложенной выборке.


Результаты . Обучение ResNet на GTX 980 занимало 60 часов, а Inception-v3 на TitanX - 48 часов. За время конкурса удалось опробовать новые фреймворки с новыми архитектурами.


Задача классификации клиентов банка

Ссылка на Kaggle .

Станислав Семёнов рассказывает, как он и другие участники топа Kaggle объединились и заняли призовое место в соревновании по классификации заявок клиентов крупного банка - BNP Paribas .


Постановка задачи . По обфусцированным данных из заявок на страхование необходимо предсказать, можно ли без дополнительных ручных проверок подтвердить запрос. Для банка это процесс автоматизации обработки заявок, а для аналитиков данных - просто задача машинного обучения по бинарной классификации. Имеется около 230 тысяч объектов и 130 признаков. Метрика - LogLoss . Стоит отметить, что команда-победитель расшифровала данные, что помогло им выиграть соревнование.

Избавление от искусственного шума в признаках . Первым делом стоит посмотреть на данные. Cразу бросаются в глаза несколько вещей. Во-первых, все признаки принимают значения от 0 до 20. Во-вторых, если посмотреть на распределение любого из признаков, то можно увидеть следующую картинку:

Почему так? Дело в том, что на этапе анонимизации и зашумления данных ко всем значениям прибавлялся случайный шум, а потом проводилось масштабирование на отрезок от 0 до 20. Обратное преобразование было проведено в два шага: сначала значения округлялись до некоторого знака после запятой, а потом подбирался деноминатор. Требовалось ли это, если дерево всё равно подбирает порог при разбиении? Да, после обратного преобразования разности переменных начинают нести больший смысл, а для категориальных переменных появляется возможность провести one-hot кодирование.

Удаление линейно зависимых признаков . Ещё мы заметили, что некоторые признаки являются суммой других. Понятно, что они не нужны. Для их определения брались подмножества признаков. На таких подмножествах строилась регрессия для предсказания некоторой другой переменной. И если предсказанные значения были близки к истинным (стоит учесть искусственное зашумление), то признак можно было удалить. Но команда не стала с этим возиться и воспользовалась уже готовым набором фильтрованных признаков. Набор подготовил кто-то другой. Одна из особенностей Kaggle - наличие форума и публичных решений, с помощью которых участники делятся своими находками.

Как понять, что нужно использовать? Есть небольшой хак. Предположим, вы знаете, что кто-то в старых соревнованиях использовал некоторую технику, которая помогла ему занять высокое место (на форумах обычно пишут краткие решения). Если в текущем конкурсе этот участник снова в числе лидеров - скорее всего, такая же техника выстрелит и здесь.

Кодирование категориальных переменных . Бросилось в глаза то, что некая переменная V22 имеет большое число значений, но при этом, если взять подвыборку по некоторому значению, число уровней (различных значений) других переменных заметно уменьшается. В том числе имеет место хорошая корреляция с целевой переменной. Что можно сделать? Самое простое решение - построить для каждого значения V22 отдельную модель, но это всё равно что в первом сплите дерева сделать разбиение по всем значениям переменной.

Есть другой способ использования полученной информации - кодирование средним значением целевой переменной. Другими словами, каждое значение категориальной переменной заменяется средним значением таргета по объектам, у которых данный признак принимает то же самое значение. Произвести такое кодирование напрямую для всего обучающего множества нельзя: в процессе мы неявно внесём в признаки информацию о целевой переменной. Речь идёт об информации, которую почти любая модель обязательно обнаружит.

Поэтому такие статистики считают по фолдам. Вот пример:

Предположим, что данные разбиты на три части. Для каждого фолда обучающей выборки будем считать новый признак по двум другим фолдам, а для тестовой выборки - по всему обучающему множеству. Тогда информация о целевой переменной будет внесена в выборку не так явно, и модель сможет использовать полученные знания.

Останутся ли проблемы ещё с чем-нибудь? Да - с редко встречающимися категориями и с кросс-валидацией.

Редко встречающиеся категории . Допустим, некоторая категория встретилась всего несколько раз и соответствующие объекты относятся к классу 0. Тогда среднее значение целевой переменной тоже будет нулевым. Однако на тестовой выборке может возникнуть совсем другая ситуация. Решение - сглаженное среднее (или smoothed likelihood), которое вычисляется по следующей формуле:

Здесь global mean - среднее значение целевой переменной по всей выборке, nrows - то, сколько раз встретилось конкретное значение категориальной переменной, alpha - параметр регуляризации (например, 10). Теперь, если некоторое значение встречается редко, больший вес будет иметь глобальное среднее, а если достаточно часто, результат окажется близким к начальному среднему по категории. Кстати, эта формула позволяет обрабатывать и неизвестные ранее значения категориальной переменной.

Кросс-валидация . Допустим, мы посчитали все сглаженные средние для категориальных переменных по другим фолдам. Можем ли мы оценить качество модели по стандартной кросс-валидации k-fold? Нет. Давайте рассмотрим пример.

К примеру, мы хотим оценить модель на третьем фолде. Мы обучаем модель на первых двух фолдах, но в них есть новая переменная со средним значением целевой переменной, при подсчёте которой мы уже использовали третий тестовый фолд. Это не позволяет нам корректно оценивать результаты, но возникшая проблема решается подсчётом статистик по фолдам внутри фолдов. Снова обратимся к примеру:

Мы по-прежнему хотим оценить модель на третьем фолде. Разобьём первые два фолда (обучающую выборку нашей оценки) на некоторые другие три фолда, в них посчитаем новый признак по уже разобранному сценарию, а для третьего фолда (это тестовая выборка нашей оценки) посчитаем по первым двум фолдам вместе. Тогда никакая информация из третьего фолда при обучении модели использоваться не будет и оценка получится честной. В соревновании, которое мы обсуждаем, корректно оценить качество модели позволяла только такая кросс-валидация. Разумеется, «внешнее» и «внутреннее» число фолдов может быть любым.

Построение признаков . Мы использовали не только уже упомянутые сглаженные средние значения целевой переменной, но и weights of evidence. Это почти то же самое, но с логарифмическим преобразованием. Кроме того, полезными оказались фичи вида разности количества объектов положительного и отрицательного классов в группе без какой-либо нормировки. Интуиция тут следующая: масштаб показывает степень уверенности в классе, но что делать с количественными признаками? Ведь если их обработать похожим образом, то все значения «забьются» регуляризацией глобальным средним. Одним из вариантов является разделение значений на бины, которые потом считаются отдельными категориями. Другой способ заключается просто в построении некой линейной модели на одном признаке с тем же таргетом. Всего получилось около двух тысяч признаков из 80 отфильтрованных.

Стекинг и блендинг . Как и в большинстве соревнований, важной частью решения является стекинг моделей. Если кратко, то суть стекинга в том, что мы передаём предсказания одной модели как признак в другую модель. Однако важно в очередной раз не переобучиться. Давайте просто разберём пример:


Взято из блога Александра Дьяконова

К примеру, мы решили разбить нашу выборку на три фолда на этапе стекинга. Аналогично подсчёту статистик мы должны обучать модель на двух фолдах, а предсказанные значения добавлять для оставшегося фолда. Для тестовой выборки можно усреднить предсказания моделей с каждой пары фолдов. Каждым уровнем стекинга называют процесс добавления группы новых признаков-предсказаний моделей на основе имеющегося датасета.

На первом уровне у команды было 200-250 различных моделей, на втором - ещё 20-30, на третьем - ещё несколько. Результат - блендинг, то есть смешивание предсказаний различных моделей. Использовались разнообразные алгоритмы: градиентные бустинги с разными параметрами, случайные леса, нейронные сети. Главная идея - применить максимально разнообразные модели с различными параметрами, даже если они дают не самое высокое качество.

Работа в команде . Обычно участники объединяются в команды перед завершением конкурса, когда у каждого уже имеются свои наработки. Мы объединились в команду с другими «кэглерами» ещё в самом начале. У каждого участника команды была папка в общем облаке, где размещались датасеты и скрипты. Общую процедуру кросс-валидации утвердили заранее, чтобы можно было сравнивать между собой. Роли распределялись следующим образом: я придумывал новые признаки, второй участник строил модели, третий - отбирал их, а четвёртый управлял всем процессом.

Откуда брать мощности . Проверка большого числа гипотез, построение многоуровневого стекинга и обучение моделей могут занимать слишком большое время, если использовать ноутбук. Поэтому многие участники пользуются вычислительными серверами с большим количеством ядер и оперативной памяти. Я обычно пользуюсь серверами AWS , а участники моей команды, как оказалось, используют для конкурсов машины на работе, пока те простаивают.

Общение с компанией-организатором . После успешного выступления в конкурсе происходит общение с компанией в виде совместного конференц-звонка. Участники рассказывают о своём решении и отвечают на вопросы. В BNP людей не удивил многоуровневый стекинг, а интересовало их, конечно же, построение признаков, работа в команде, валидация результатов - всё, что может им пригодиться в улучшении собственной системы.

Нужно ли расшифровывать датасет . Команда-победитель заметила в данных одну особенность. Часть признаков имеет пропущенные значения, а часть не имеет. То есть некоторые характеристики не зависели от конкретных людей. Кроме того, получилось 360 уникальных значений. Логично предположить, что речь идёт о неких временных отметках. Оказалось, если взять разность между двумя такими признаки и отсортировать по ней всю выборку, то сначала чаще будут идти нули, а потом единицы. Именно этим и воспользовались победители.

Наша команда заняла третье место. Всего участвовало почти три тысячи команд.

Задача распознавания категории объявления

Ссылка на DataRing .

Это ещё один конкурс «Авито». Он проходил в несколько этапов, первый из которых (как, впрочем, ещё и третий) выиграл Артур Кузин .


Постановка задачи . По фотографиям из объявления необходимо определить категорию. Каждому объявлению соответствовало от одного до пяти изображений. Метрика учитывала совпадения категорий на разных уровнях иерархии - от общих к более узким (последний уровень содержит 194 категории). Всего в обучающей выборке был почти миллион изображений, что близко к размеру ImageNet.


Сложности распознавания . Казалось бы, надо всего лишь научиться отличать телевизор от машины, а машину от обуви. Но, например, есть категория «британские кошки», а есть «другие кошки», и среди них встречаются очень похожие изображения - хотя отличить их друг от друга всё-таки можно. А как насчёт шин, дисков и колёс? Тут и человек не справится. Указанные сложности - причина появления некоторого предела результатов всех участников.


Ресурсы и фреймворк . У меня в распоряжении оказались три компьютера с мощными видеокартами: домашний, предоставленный лабораторией в МФТИ и компьютер на работе. Поэтому можно было (и приходилось) обучать по несколько сетей одновременно. В качестве основного фреймворка обучения нейронных сетей был выбран MXNet , созданный теми же ребятами, которые написали всем известный XGBoost . Одно это послужило поводом довериться их новому продукту. Преимущество MXNet в том, что прямо из коробки доступен эффективный итератор со штатной аугментацией, которой достаточно для большинства задач.


Архитектуры сетей . Опыт участия в одном из прошлых соревнований показал, что лучшее качество показывают архитектуры серии Inception. Их я и задействовал здесь. В GoogLeNet была добавлена , поскольку она ускоряла обучение модели. Также использовались архитектуры Inception-v3 и Inception BN из библиотеки моделей Model Zoo , в которые был добавлен дропаут перед последним полносвязным слоем. Из-за технических проблем не удавалось обучать сеть с помощью стохастического градиентного спуска, поэтому в качестве оптимизатора использовался Adam.



Аугментация данных . Для повышения качества сети использовалась аугментация - добавление искажённых изображений в выборку с целью увеличения разнообразия данных. Были задействованы такие преобразования, как случайное обрезание фотографии, отражение, поворот на небольшой угол, изменение соотношения сторон и сдвиг.

Точность и скорость обучения . Сначала я разделил выборку на три части, но потом отказался от одного из этапов валидации для смешивания моделей. Поэтому впоследствии вторая часть выборки была добавлена в обучающее множество, что улучшило качество сетей. Кроме того, GoogLeNet изначально обучался на Titan Black, у которого вдвое меньше памяти по сравнению с Titan X. Так что эта сеть была дообучена с большим размером батча, и её точность возросла. Если посмотреть на время обучения сетей, можно сделать вывод, что в условиях ограниченных сроков не стоит использовать Inception-v3, поскольку с двумя другими архитектурами обучение идёт заметно быстрее. Причина в числе параметров. Быстрее всех учится Inception BN.

Построение предсказаний .

Как и Евгений в конкурсе с марками автомобилей, Артур использовал предсказания на кропах - но не на 10 участках, а на 24. Участками послужили углы, их отражения, центр, повороты центральных частей и ещё десять случайных.

Если сохранять состояние сети после каждой эпохи, в результате образуется множество различных моделей, а не только финальная сеть. С учётом оставшегося до конца соревнования времени я мог использовать предсказания 11 моделей-эпох - поскольку построение предсказаний с помощью сети тоже длится немало. Все указанные предсказания усреднялись по следующей схеме: сначала с помощью арифметического среднего в рамках групп по кропам, далее с помощью геометрического среднего с весами, подобранными на валидационном множестве. Эти три группы смешиваются, потом повторяем операцию для всех эпох. В конце вероятности классов всех картинок одного объявления усредняются с помощью геометрического среднего без весов.


Результаты . При подборе весов на этапе валидации использовалась метрика соревнования, поскольку она не слишком коррелировала с обычной точностью. Предсказание на разных участках изображений даёт лишь малую часть качества по сравнению с единым предсказанием, но именно за счёт этого прироста удаётся показать лучший результат. По окончании конкурса выяснилось, что первые три места отличаются в результатах на тысячные доли. Например, у Женя Нижибицкого была единственная модель, которая совсем немного уступила моему ансамблю моделей.


Обучение с нуля vs. fine-tuning . Уже после завершения конкурса выяснилось, что несмотря на большой размер выборки стоило обучать сеть не с нуля, а при помощи предобученной сети. Этот подход демонстрирует более высокие результаты.

Задача обучения с подкреплением

Соревнование Black Box Challenge, о котором , было не совсем похоже на обычный «кэгл». Дело в том, что для решения было недостаточно разметить некоторую «тестовую» выборку. Требовалось запрограммировать и загрузить в систему код «агента», который помещался в неизвестную участнику среду и самостоятельно принимал в ней решения. Такие задачи относятся к области обучения с подкреплением - reinforcement learning.

О подходах к решению рассказал Михаил Павлов из компании 5vision. В конкурсе он занял второе место.


Постановка задачи . Для среды с неизвестными правилами нужно было написать «агента», который взаимодействовал бы с указанной средой. Схематично это некий мозг, который получает от чёрного ящика информацию о состоянии и награде, принимает решение о действии, после чего получает новое состояние и награду за совершённое действие. Действия повторяются друг за другом в течение игры. Текущее состояние описывается вектором из 36 чисел. Агент может совершить четыре действия. Цель - максимизировать сумму наград за всю игру.


Анализ среды . Изучение распределения переменных состояния среды показало, что первые 35 компонент не зависят от выбранного действия и только 36-я компонента меняется в зависимости от него. При этом разные действия влияли по-разному: некоторые увеличивали или уменьшали, некоторые никак не меняли. Но нельзя сказать, что вся среда зависит от одной компоненты: в ней могут быть и некие скрытые переменные. Кроме того, эксперимент показал, что если совершать более 100 одинаковых действий подряд, то награда становится отрицательной. Так что стратегии вида «совершать только одно действие» отпадали сразу. Кто-то из участников соревнования заметил, что награда пропорциональна всё той же 36-й компоненте. На форуме прозвучало предположение, что чёрный ящик имитирует финансовый рынок, где портфелем является 36-я компонента, а действиями - покупка, продажа и решение ничего не делать. Эти варианты соотносились с изменением портфеля, а смысл одного действия понятен не был.


Q-learning . Во время участия основной целью было попробовать различные техники обучения с подкреплением. Одним из самых простых и известных методов является q-learning. Его суть в попытке построить функцию Q, которая зависит от состояния и выбранного действия. Q оценивает, насколько «хорошо» выбирать конкретное действие в конкретном состоянии. Понятие «хорошо» включает в себя награду, которую мы получим не только сейчас, но и будущем. Обучение такой функции происходит итеративно. Во время каждой итерации мы пытаемся приблизить функцию к самой себе на следующем шаге игры с учётом награды, полученной сейчас. Подробнее можно почитать . Применение q-learning предполагает работу с полностью наблюдаемыми марковскими процессами (другими словами, в текущем состоянии должна содержаться вся информация от среды). Несмотря на то, что среда, по заявлению организаторов, не удовлетворяла этому требованию, применять q-learning можно было достаточно успешно.

Адаптация к black box . Опытным путём было установлено, что для среды лучше всего подходил n-step q-learning, где использовалась награда не за одно последнее действие, а за n действий вперёд. Среда позволяла сохранять текущее состояние и откатываться к нему, что облегчало сбор выборки - можно было из одного состояния попробовать совершить каждое действие, а не какое-то одно. В самом начале обучения, когда q-функция ещё не умела оценивать действия, использовалась стратегия «совершать действие 3». Предполагалось, что оно ничего не меняло и можно было начать обучаться на данных без шума.

Процесс обучения . Обучение происходило так: с текущей политикой (стратегией агента) играем весь эпизод, накапливая выборку, потом с помощью полученной выборки обновляем q-функцию и так далее - последовательность повторяется в течение некоторого количества эпох. Результаты получались лучше, чем при обновлении q-функции в процессе игры. Другие способы - техника replay memory (с общим банком данных для обучения, куда заносятся новые эпизоды игры) и одновременное обучение нескольких агентов, играющих асинхронно, - тоже оказалось менее эффективными.

Модели . В решении использовались три регрессии (каждая по одному разу в расчёте на каждое действие) и две нейронных сети. Были добавлены некоторые квадратичные признаки и взаимодействия. Итоговая модель представляет собой смесь всех пяти моделей (пяти Q-функций) с равными весами. Кроме того, использовалось онлайн-дообучение: в процессе тестирования веса́ старых регрессий подмешивались к новым весам, полученным на тестовой выборке. Это делалось только для регрессий, поскольку их решения можно выписывать аналитически и пересчитывать достаточно быстро.


Другие идеи . Естественно, не все идеи улучшали итоговый результат. Например, дисконтирование награды (когда мы не просто максимизируем суммарную награду, а считаем каждый следующий ход менее полезным), глубокие сети, dueling-архитектура (с оценкой полезности состояния и каждого действия в отдельности) не дали роста результатов. Из-за технических проблем не получилось применить рекуррентные сети - хотя в ансамбле с другими моделями они, возможно, обеспечили бы некоторую пользу.


Итоги . Команда 5vision заняла второе место, но с совсем небольшим отрывом от обладателей «бронзы».


Итак, зачем нужно участвовать в соревнованиях по анализу данных?

  • Призы. Успешное выступление в большинстве соревнований вознаграждается денежными призами или другими ценными подарками. На Kaggle за семь лет разыграли более семи миллионов долларов.
  • Карьера. Иногда призовое место .
  • Опыт. Это, конечно, самое главное. Можно изучить новую область и начать решать задачи, с которыми вы раньше не сталкивались.

Сейчас тренировки по машинному обучению проводятся по субботам каждую вторую неделю. Место проведения - московский офис Яндекса, стандартное число гостей (гости плюс яндексоиды) - 60-80 человек. Главным свойством тренировок служит их злободневность: всякий раз разбирается конкурс, завершившийся одну-две недели назад. Это мешает всё точно спланировать, но зато конкурс ещё свеж в памяти и в зале собирается много людей, попробовавших в нём свои силы. Курирует тренировки Эмиль Каюмов, который, кстати, помог с написанием этого поста.

Кроме того, есть другой формат: зарешивания, где начинающие специалисты совместными усилиями участвуют в действующих конкурсах. Зарешивания проводятся по тем субботам, когда нет тренировок. На мероприятия обоих типов может прийти любой, анонсы публикуются в группах

Несмотря на то, что «процесс анализа информации» - это скорее технический термин, но его наполнение на 90 % связано с деятельностью человека.

Понимание потребностей в основе любой задачи по анализу информации тесно связано с пониманием бизнеса компании. Сбор данных из подходящих источников требует опыта в их подборе, независимо от того, насколько окончательный процесс сбора данных может быть автоматизирован. Для превращения собранных данных в аналитические выводы и эффективного применения их на практике необходимы глубокие знания бизнес-процессов и наличие навыков консультирования.

Процесс анализа информации представляет собой цикличный поток событий, который начинается с анализа потребностей в рассматриваемой области. Затем следует сбор информации из вторичных и (или) первичных источников, ее анализ и подготовка отчета для лиц, ответственных за принятие решений, которые будут его использовать, а также давать свои отзывы и готовить предложения.

На международном уровне процесс анализа информации характеризуется следующим образом:

  • Сначала в ключевых бизнес-процессах определяются этапы принятия решений, которые сопоставляются со стандартными конечными результатами анализа информации.
  • Процесс анализа информации начинается с оценки потребностей на международном уровне, т. е. с определения будущих потребностей, связанных с принятием решений, и их проверкой.
  • Этап сбора информации автоматизирован, что позволяет выделить время и ресурсы на первичный анализ информации и, соответственно, повысить ценность уже имеющейся вторичной информации.
  • Значительная часть времени и ресурсов тратится на анализ информации, выводы и интерпретацию.
  • Полученная в результате аналитическая информация доводится до сведения каждого лица, ответственного за принятие решений, в индивидуальном порядке с отслеживанием процесса ее дальнейшего использования.
  • У членов группы, которая занимается анализом информации, сформирована установка на непрерывное совершенствование.

Введение: цикл анализа информации

Термин «процесс анализа информации» означает непрерывный, цикличный процесс, который начинается с определения информационных потребностей людей, ответственных за принятие решений, и заканчивается предоставлением того объема информации, который соответствует этим потребностям. В этом отношении необходимо сразу же провести различие между объемом информации и процессом анализа информации. Определение объема информации направлено на выявление целей и потребностей в информационных ресурсах для всей программы анализа информации, тогда как процесс анализа информации начинается с определения потребностей по одному, пусть даже и незначительному, конечному результату такого анализа.

Процесс анализа информации всегда должен быть привязан к существующим в компании процессам, то есть стратегическому планированию, продажам, маркетингу или управлению производством товара, в рамках которых и будет использоваться данная информация. На практике же использование полученной на выходе информации должно быть либо напрямую связано с ситуациями принятия решений, либо такая информация должна способствовать повышению уровня информированности организации по тем направлениям операционной деятельности, которые имеют отношение к различным бизнес-процессам.

На рис. 1 показаны этапы цикличного процесса анализа информации (подробнее об этом см. ниже). В свою очередь, в правой части диаграммы показаны конкретные итоги процесса анализа информации, когда решения принимаются на основе общих исследований рынка, и итоги процесса анализа информации, прямо связанного с различными бизнес-процессами и проектами.

Кликните мышкой по изображению, чтобы увеличить его

Цикл анализа информации состоит из шести этапов. Их подробное описание приведено ниже.

1. Анализ потребностей

Тщательная оценка потребностей позволяет определить цели и объем задачи по анализу информации. Даже если те, кто решает такую задачу, будут вести сбор информации для собственного использования, имеет смысл четко обозначить ключевые направления в решении этой задачи для концентрации ресурсов в наиболее подходящих областях. Однако в подавляющем большинстве случаев те, кто проводит исследования, не являются конечными пользователями его результатов. Поэтому они должны иметь полное представление о том, для чего будут использоваться конечные результаты, чтобы исключить сбор и анализ данных, которые в конечном итоге могут оказаться неактуальными для пользователей. Для этапа анализа потребностей разработаны различные шаблоны и анкеты, задающие высокую планку качества на начальной стадии решения задачи.

Однако самое важное заключается в том, что потребности организации в анализе информации должны быть до конца изучены и трансформированы из внешних во внутренние для того, чтобы программа анализа информации представляла собой определенную ценность. Сами по себе шаблоны и анкеты не могут обеспечить достижение этой цели. Они, естественно, могут оказаться полезными, но бывали случаи, когда отличный анализ потребностей проводился просто на основе неофициальной беседы с руководителями компании. Это, в свою очередь, требует от группы по анализу информации подхода с позиций консультирования или, по крайней мере, умения продуктивно вести деловые переговоры с теми, кто отвечает за принятие решений.

2. Охват вторичных источников информации

В рамках цикла анализа информации мы отдельно выделяем сбор информации из вторичных и первичных источников. Для этого есть ряд причин. Во-первых, сбор информации из общедоступных источников обходится дешевле, чем обращение напрямую к первичным источникам. Во-вторых, это проще, при том, разумеется, условии, что люди, перед которыми поставлена такая задача, имеют достаточный опыт изучения имеющихся вторичных источников. На самом деле, управление источниками информации и связанная с этим оптимизация затрат сами по себе являются отдельной областью знаний. В-третьих, охват вторичных источников информации перед проведением исследований в форме интервью даст тем, кто проводит такие исследования, ценную базовую информацию общего характера, которую можно проверить и использовать, выдавая ее в ответ на информацию от интервьюируемых. Кроме того, если в ходе изучения вторичных источников удастся получить ответы на некоторые вопросы, это снизит стоимость этапа исследований первичных источников, а иногда и вовсе исключит необходимость их проведения.

3. Исследования первичных источников

Каким бы огромным ни был объем имеющейся на сегодняшний день общедоступной информации, не ко всем сведениям можно получить доступ через изучение вторичных источников. После изучения вторичных источников пробелы в исследовании можно заполнить, интервьюируя экспертов, хорошо знакомых с темой исследования. Этот этап может оказаться относительно дорогим по сравнению с изучением вторичных источников, что, естественно, зависит от масштаба поставленной задачи, а также от того, какие ресурсы задействованы: нередко компании привлекают к участию в исследованиях первичных источников сторонних исполнителей.

4. Анализ

После сбора информации из различных источников необходимо разобраться, что именно из этого нужно для первоначального анализа потребностей в соответствии с поставленной задачей. Опять-таки, в зависимости от объема поставленной задачи этот этап исследований может оказаться довольно затратным, так как включает в себя, по меньшей мере, временные затраты внутренних, а иногда и внешних, ресурсов и, возможно, некую дополнительную проверку правильности результатов анализов посредством дальнейших интервью.

5. Предоставление результатов

Формат предоставления результатов после выполнения задачи по анализу информации имеет для конечных пользователей немаловажное значение. Как правило, у людей, ответственных за принятие решений, нет времени на поиск ключевых результатов анализа в большом объеме полученных ими данных. Основное содержание необходимо перевести в легкий для восприятия формат с учетом их требований. В то же время следует обеспечить удобный доступ к дополнительным фоновым данным для тех, кто заинтересуется и захочет «копнуть глубже». Эти основные правила применяются независимо от формата предоставления информации, будь то программное обеспечение с базой данных, информационный бюллетень, презентация PowerPoint, личная встреча или семинар. Кроме того, существует еще одна причина, по которой мы отделили этап предоставления информации от конечного использования, а также получения отзывов и предложений по предоставленной аналитической информации. Иногда решения будут приниматься в той же последовательности, в которой будет предоставляться аналитическая информация. Однако гораздо чаще базовые, справочные материалы будут предоставлены до того, как возникнет фактическая ситуация принятия решения, поэтому формат, канал и способ предоставления информации влияют на то, как она будет восприниматься.

6. Использование и предоставление комментариев/замечаний

Этап использования служит своего рода лакмусовой бумажкой для оценки успешности выполнения задачи по анализу информации. Он позволяет понять, отвечают ли полученные результаты потребностям, определенным в самом начале процесса анализа информации. Независимо от того, были ли получены ответы на все первоначально заданные вопросы, на этапе использования, как правило, возникают новые вопросы и необходимость в новом анализе потребностей, особенно если потребность в анализе информации носит постоянный характер. Кроме того, в результате совместных усилий по созданию информационных материалов конечными пользователями и специалистами в области анализа информации к моменту перехода на этап ее использования может оказаться, что конечные пользователи такой информации уже внесли свой вклад в ожидаемый конечный результат. С другой стороны, те, кто в основном занимался анализом, могут быть активно задействованы в процессе формирования выводов и интерпретации результатов, на основании которых будут приниматься окончательные решения. В идеале продуманные замечания и комментарии на этапе использования уже можно использовать в качестве основы для оценки потребностей в рамках следующей задачи анализа информации. Таким образом, цикл процесса анализа информации завершается.

Начало работы: разработка процесса анализа информации

Определение этапов принятия решений в бизнес-процессах, которые требуют проведения аналитических исследований рынка

Термин «анализ информации для этапа принятия решения» приобретает все большую популярность, поскольку компании, в которых уже действует программа анализа информации, начали рассматривать различные варианты более эффективной интеграции этих программ в процессы принятия решений. Насколько абстрактными, или наоборот конкретными, будут меры по «улучшению связи между конечными результатами анализа информации и бизнес-процессами», в значительной степени будет зависеть от того, были ли данные бизнес-процессы определены формально, а также от того, есть ли у группы по анализу информации понимание конкретных информационных потребностей, связанных с этапами принятия решений в рамках этих процессов.

Как мы упоминали в главе 1, методы и способы, которые обсуждаются в этой книге, оптимально подходят для компаний, у которых уже имеются структурированные бизнес-процессы, например процесс выработки стратегии. Компаниям, управление которыми не так четко структурировано, возможно, придется проявить некоторую креативность при использовании подходов методики проведения анализа рынка международного уровня с учетом действующих у них схем управления. Тем не менее, основные принципы, которые мы здесь рассматриваем, подойдут для любой компании.

Оценка потребностей в анализе информации: почему это так важно?

С учетом того, что понимание ключевых требований к анализу информации в самом начале этого процесса оказывает более сильное влияние на качество конечных результатов, чем какой бы то ни было этап данного процесса, поразительно, что этапу оценки потребностей нередко уделяется слишком мало внимания. Несмотря на потенциальную ограниченность ресурсов на других этапах процесса анализа информации, одно лишь пристальное внимание к оценке потребностей во многих случаях позволило бы существенно повысить ценность и применимость конечных результатов данного процесса, оправдывая таким образом затраты времени и ресурсов на выполнение задачи по анализу информации. Ниже мы рассмотрим конкретные способы улучшения качества оценки потребностей.

Нередко автоматически считается, что руководство знает, какая информация нужна компании. Однако на самом деле высшее руководство, как правило, имеет представление лишь о части информационных потребностей своей организации и даже в этом случае, возможно, находится не в самом лучшем положении, чтобы точно определить, какая информация нужна, не говоря уже о том, где ее можно найти.

В результате постоянно повторяется ситуация, когда для выполнения задач по анализу информации нет ни четко сформулированного представления о проблеме, ни ее бизнес-контекста. Те, кто лучше всего знаком с источниками информации и методами анализа, тратят время на беспорядочную, по всей видимости, обработку данных и не видят картины в целом, а также тех подходов, которые имеют наиболее существенное значение для компании. Неудивительно, что в результате люди, ответственные за принятие решений, получают гораздо больше информации, чем им нужно, что в принципе контрпродуктивно, поскольку вскоре они начинают игнорировать не только бесполезную, но и важную информацию. Им нужен не больший объем информации, а более качественная и точная информация.

В то же время у людей, ответственных за принятие решений, могут быть нереалистичные ожидания по поводу доступности и точности информации, так как перед постановкой задачи они не проконсультировались со специалистами в области анализа информации. Следовательно, в идеале специалисты в области анализа информации и люди, ответственные за принятие решений, должны находиться в постоянном контакте друг с другом и вместе работать над тем, чтобы обе стороны имели одинаковое представление о первоочередных информационных потребностях. Умение управлять этим процессом потребует от аналитиков, работающих в этом направлении, целого ряда навыков:

  • Аналитик должен понимать, как выявлять и определять информационные потребности людей, ответственных за принятие решений.
  • Аналитик должен развивать навыки эффективного общения, проведения интервью и презентаций.
  • В идеале аналитик должен разбираться в психологических типах личности, чтобы учитывать различную направленность людей, ответственных за принятие решений.
  • Аналитик должен знать организационную структуру, культуру и среду, а также ключевых опрашиваемых лиц.
  • Аналитик должен сохранять объективность.

Работа в рамках цикла анализа информации и устранение «узких мест» в процессе

На начальных этапах внедрения программы анализа информации целевая группа для проведения мероприятий, как правило, ограничена, равно как и конечные результаты, которые дает программа. Аналогичным образом при обработке конечных результатов часто возникают различные затруднения (так называемые «узкие места»): даже простой сбор разрозненных данных из вторичных и первичных источников может потребовать знаний и опыта, которых у компании нет, а после завершения сбора информации может оказаться, что времени и ресурсов для проведения детального анализа собранных данных недостаточно, не говоря уже о подготовке информативных и тщательно проработанных презентаций, которыми могли бы воспользоваться люди, ответственные за принятие решений. Более того, на начальных этапах разработки программы анализа информации практически ни у одной компании нет специальных инструментов хранения и распространения результатов такого анализа. Как правило, в конечном итоге результаты предоставляются целевым группам в виде обычных вложений, пересылаемых по электронной почте.

Сложности выполнения аналитической задачи в рамках цикла анализа информации можно описать, пользуясь стандартным треугольником управления проектом, т. е. необходимо выполнить задачу и выдать результат при трех основных ограничениях: бюджете, сроках и объеме работ. Во многих случаях эти три ограничения конкурируют между собой: в стандартной задаче по анализу информации увеличение объема работ потребует увеличения сроков и бюджета; жесткое ограничение по срокам, вероятно, будет означать увеличение бюджета и одновременное сокращение объема работ, а ограниченный бюджет, скорее всего, означает как ограничение объема работ, так и сокращение сроков на реализацию проекта.

Возникновение в процессе анализа информации «узких мест» обычно приводит к существенным трениям при выполнении исследовательской задачи в рамках цикла анализа информации на начальных этапах разработки программы для такого анализа. Поскольку ресурсы ограничены, в первую очередь следует устранить наиболее критичные «узкие места». Достаточно ли у группы по анализу информации возможностей для его проведения? Необходимо ли дополнительное обучение? Или проблема скорее заключается в том, что аналитикам не хватает ценной информации, с которой можно работать - другими словами, наиболее критичным «узким местом» является сбор информации? А может быть, группе по анализу информации просто не хватает времени, то есть группа не в состоянии своевременно реагировать на срочные запросы?

Повысить эффективность выполнения аналитической задачи в рамках цикла анализа информации можно в двух направлениях. «Производительность» цикла, т. е. тщательность, с которой группа по анализу информации может обрабатывать аналитические задачи на каждом этапе, и скорость ответа на вопрос. На рис. 2 показана разница между этими подходами и в целом различие между задачами по стратегическому анализу и запросами на проведение исследований, требующими оперативного реагирования.

Хотя и тот, и другой подход предполагают прохождение аналитической задачи через все этапы цикла анализа информации, группа по анализу информации, перед которой поставлена задача оперативно провести исследования, будет работать над изучением вторичных и первичных источников параллельно (иногда один телефонный звонок специалисту может дать необходимые ответы на вопросы, поставленные в запросе на проведение исследований). Кроме того, во многих случаях анализ и предоставление информации объединены, например, в кратком обзоре, который аналитик передает руководителю, запросившему данную информацию.

Производительность цикла анализа информации можно повысить, добавив либо внутренние (нанятые), либо внешние (приобретенные) ресурсы там, где они необходимы, что позволит добиться более качественных результатов и расширить возможности по обслуживанию все большего количества групп пользователей в пределах организации.

Тот же принцип применим и к обеспечению быстродействия при реализации последовательности операций, т. е. важно то, насколько быстро срочная задача по проведению исследований проходит через различные этапы цикла. По сложившейся традиции компании преимущественно концентрируются на обеспечении стабильной пропускной способности посредством долгосрочных схем планирования ресурсов и обучения персонала. Однако по мере развития такого специализированного направления, как анализ информации, и повышения доступности глобальных профессиональных ресурсов, привлекаемых со стороны, все большее распространение получают и временные схемы, реализуемые в каждом конкретном случае и обеспечивающие необходимую гибкость.

На рис. 3 показаны два типа итоговых результатов цикла анализа информации, то есть стратегический анализ и исследования, требующие оперативного реагирования (см. график конечных результатов анализа информации). Несмотря на то, что задачи по проведению исследований, требующих оперативного реагирования, обычно связаны с бизнес-процессами, уровень их анализа не очень высок из-за банальной нехватки времени для проведения такого анализа. С другой стороны, задачи по стратегическому анализу, как правило, связаны с высоким уровнем совместного творчества на этапе анализа и предоставления информации, что ставит их практически на вершину треугольника, где осуществляется интерпретация и применение полученной информации.

Непрерывное развитие: стремление к международному уровню анализа информации

Отлаженность процесса анализа информации можно наглядно представить в виде графика цикла равномерной толщины (рис. 2), в том смысле, что зрелый процесс анализа информации не имеет «слабых звеньев» или существенных «узких мест» в организации последовательности операций. Такая равномерность требует соответствующего планирования ресурсов на каждом этапе, что, в свою очередь, достигается благодаря многократному прохождению цикла с учетом всех деталей. Например, первоначальную оценку потребностей можно постепенно улучшить благодаря тому, что люди, ответственные за принятие решений и пользующиеся результатами работы, будут замечать недостатки и типичные расхождения на начальном этапе выполнения задач по аналитическим исследованиям рынка. С тем же успехом можно со временем развить сотрудничество между специалистами по поиску информации и аналитиками (если эти две функции разделены) благодаря тому, что вопросы, которые ранее остались незамеченными и были подняты в ходе анализа, передаются специалистам по поиску информации с целью сбора дополнительных данных. Со временем опыт покажет, какие ресурсы нужны для каждого из этих этапов, чтобы добиться оптимальных результатов.

Какие результаты в конечном итоге являются «оптимальными», определяется тем, насколько точно полученная на выходе информация соответствует потребностям людей, ответственных за принятие решений, в рамках бизнес-процессов. И это снова возвращает нас к равномерной толщине цикла анализа информации: процесс анализа информации международного уровня начинается не с оценки потребностей как таковых, а с четкого определения, где и как будет применяться полученная на выходе информация. На самом деле, общение между людьми, ответственными за принятие решений, и специалистами в области анализа информации в рамках всего аналитического процесса международного уровня должно быть постоянным, информативным и направленным в обе стороны.

Один из способов укрепления связей между принятием решений и исследованиями рынка - заключить соглашения об уровне услуг с ключевыми заинтересованными сторонами, которые обслуживает программа аналитических исследований рынка. Согласование необходимого уровня услуг по исследованиям рынка с руководителями высшего звена по стратегическому планированию, продажам, маркетингу и НИОКР позволит четко определить конечные результаты проведения таких аналитических исследований и мероприятия по каждой группе заинтересованных лиц на ближайшие 6–12 месяцев, в том числе бюджет на исследования рынка, задействованных лиц, основные этапы и взаимодействие на протяжении всего процесса.

Заключение соглашений об уровне услуг имеет ряд преимуществ:

  • Необходимо время, чтобы сесть и обсудить основные цели и этапы принятия решений по ответственным за ключевые бизнес-процессы = группа по исследованиям рынка получает более полное представление о том, что важно для руководства, и вместе с тем улучшает личные отношения.
  • Уменьшается риск непредвиденной избыточной нагрузки по специальным проектам, благодаря выявлению направлений для регулярного пересмотра, стратегического анализа информации и т. д.
  • Появляется время для совместного творчества в процессе анализа информации: нередко совещания и семинары по аналитическим исследованиям рынка с участием постоянно занятых руководителей нужно планировать за несколько месяцев.
  • Благодаря четкой постановке целей и оценке результатов упорядочиваются мероприятия по исследованиям рынка, повышается уровень аналитики.
  • В целом уменьшается замкнутость организации и так называемое «варение в собственном соку», сотрудничество между руководителями и специалистами по аналитическим исследованиям рынка становится более плодотворным.

Приведенные в конце два примера наглядно показывают, как благодаря налаженному процессу анализа информации аналитическая группа может реагировать на различные требования, содержащиеся в задаче по анализу информации, в зависимости от географического региона, который анализируется в рамках этой задачи. В «западном мире» из вторичных источников можно получить большое количество достоверной информации практически по любой теме. Благодаря этому задача специалистов в области анализа информации сводится к поискам наилучших источников для эффективного с точки зрения затрат сбора информации с целью ее последующего анализа и предоставления отчетов.

С другой стороны, на развивающихся рынках часто наблюдается нехватка надежных вторичных источников или же отсутствие необходимых данных на английском языке. Следовательно, специалистам в области анализа информации нужно быстро обратиться к первичным источникам и провести интервью, как правило, на языке данной страны. В этой ситуации важно полагаться на достаточно большое количество источников, чтобы оценить правильность результатов исследований, прежде чем перейти к их анализу.

Пример. Изучение бизнес-цикла для предприятия химической промышленности

Компании, работающей в химической отрасли, потребовался большой объем информации о существовавших ранее, современных и будущих бизнес-циклах по нескольким направлениям производства товаров химической промышленности на рынке Северной Америки. Данную информацию предполагалось использовать для оценки будущего роста по определенным направлениям производства химической продукции, а также для планирования развития бизнеса на основе понимания бизнес-циклов в отрасли.

Анализ проводился с использованием статистических методов, в том числе регрессионного и визуального анализа. Анализ бизнес-циклов проходил как в количественном, так и в качественном отношении, с учетом мнений отраслевых экспертов о долгосрочном росте. При выполнении задачи использовались исключительно вторичные источники информации, а для проведения анализа - статистические методы, в том числе регрессионный и визуальный анализ. В результате был представлен подробный аналитический отчет с описанием длительности и характера бизнес-циклов, а также оценкой перспектив на будущее для ключевых направлений производства продукции компании (этилен, полиэтилен, стирол, аммиак и бутилкаучук).

Пример. Оценка рынка гидродифторида аммония и фтористоводородной кислоты в России и СНГ

Перед одним из крупнейших в мире ядерных центров стояла задача по изучению рынка для этих двух побочных продуктов его производства, а именно гидродифторида аммония и фтористоводородной кислоты, в России и СНГ. При недостаточной емкости этого рынка им пришлось бы инвестировать в строительство объектов по утилизации указанных продуктов.

Были проведены исследования вторичных источников как на уровне России и СНГ, так и на глобальном уровне. В связи с узкоспециализированным характером рынка и высоким внутренним потреблением побочных продуктов основной упор делался на исследования первичных источников. При подготовке к последующему анализу были проведены 50 подробных интервью с потенциальными клиентами, конкурентами и специалистами отрасли.

В окончательном отчете была представлена оценка объема рынка без учета внутреннего потребления, анализ сегментов, анализ импорта, анализ цепочки создания стоимости, анализ замещающих технологий и продуктов по каждому промышленному сегменту, прогноз развития рынка, анализ ценообразования и, наконец, оценка потенциальных возможностей рынка в России и СНГ.

Пример. Эффективный процесс анализа информации на основе оценки преобладающих тенденций для представления руководителям в виде отчетов

Ведущая энергетическая и нефтехимическая компания успешно усовершенствовала процесс анализа информации, приняв за основу анализ стратегических сценариев для сбора, анализа и предоставления информации.

Благодаря интеграции мероприятий по анализу информации в ключевые бизнес-процессы на этапе планирования, удалось четко определить истинные стратегические потребности организации и довести их до аналитической группы, которая, соответственно, сумела организовать процесс анализа таким образом, чтобы основное внимание уделялось стратегии и действиям. Процесс анализа информации в компании начинается с изучения преобладающих тенденций и заканчивается наглядными примерами реагирования на риски с рекомендациями для руководства.

Ключом к повышению эффективности программы анализа информации стала успешная оценка потребностей с точки зрения стратегических целей компании. При этом ответственные за принятие решений люди участвовали в процессе анализа информации уже на начальном этапе (обсуждения, совещания, семинары). Это способствовало налаживанию двустороннего диалога и более полной интеграции программы анализа информации в другие направления деятельности компании.

Пример. Глобальная биотехнологическая компания разработала цикл анализа информации для своевременного предоставления аналитических данных и упреждающего принятия решений.

Цель программы анализа информации заключалась в предоставлении информации с целью заблаговременного оповещения и предупреждения, что позволило бы ввести в действие реализуемые и выполнимые стратегии на всех рынках, где работает компания. Был введен в действие цикл анализа информации, в котором на нескольких этапах были задействованы лица, заинтересованные в анализе информации (как для ввода, так и для вывода информации), а также многочисленные источники информации.

Лица, заинтересованные в анализе информации, представляли четыре ключевые функции в компании (группа по стратегии, маркетинг и продажи, финансы, связи с инвесторами и директора). Наиболее активная деятельность велась на этапах планирования и реализации. Успешное внедрение цикла анализа информации, объединившего внутренние заинтересованные стороны (для оценки потребностей) и многочисленные источники информации в рамках четко определенного процесса предоставления результатов анализа, означало, что реализованная аналитическая программа оказала определенное влияние на разработку стратегии и упреждающее принятие решений.

← Вернуться

×
Вступай в сообщество «i-topmodel.ru»!
ВКонтакте:
Я уже подписан на сообщество «i-topmodel.ru»