Словарь аналитика

Добро пожаловать в наш словарь аналитика, затрагивающий почти все стороны данной профессии. В мире данных суть может меняться в зависимости от того, как интерпретировать понятия. Помня об этом, мы создали этот глоссарий, чтобы поделиться своими определениями часто используемых терминов и понятий.

Это ваш краткий справочник по всем наиболее важным терминам, которые вы можете встретить, вступая на тернистый путь анализа данных. Словарь содержит простые определения и примеры для широкого круга читателей кому интересна тема аналитики. При этом, это практически живой организм, который будет постоянно пополняться и корректироваться.

Как использовать словарь аналитика?

Есть два пути быстрого нахождения нужного определения:

  1. придерживаясь понятной логики, словарь аналитика сгруппирован по алфавиту и можно проматывать страницу вниз до нужной буквы
  2. если вы ищете определенное слово, мы рекомендуем использовать функцию поиска в вашем браузере (CTRL+F) и ввести термин в строку поиска
  3. в случае если какое-либо определение не удалось найти, пишите через форму контакты, мы обязательно добавим

А

Агрегация [англ. aggregation] — это термин, используемый для сбора информации различного рода и  целей, включая статистический анализ. Собранная информация выражается в виде сводки, такой как среднее, максимальное, минимальное и т.д. значения.

Алгоритм [англ. algorithm] — это набор определенных правил, определенная процедура или формула, которые используются для решения проблем. Алгоритмы чаще всего используются в вычислениях для выполнения задачи или решения проблемы.

Анализ расхождений [англ. Gap analysis] — это метод, который помогает компаниям оценить пробелы между текущим состоянием и целями на будущее. На основе этого компании могут выявить пробелы в текущих процессах и наметить стратегию для достижения поставленных целей.

Аналитик данных [англ. data analyst] — это техническая роль, ориентированная на внедрение, поддержку и оптимизацию технологии анализа данных. Они опытные администраторы, архитекторы и пользователи инструментов обработки данных.

Аналитика продаж [англ. sales analytics] – это процесс, используемый для выявления, моделирования, понимания и прогнозирования тенденций и результатов продаж, способствующий поиску точек улучшения и эффективности продаж.

Аналитика тенденций  [англ. trend analytics] — это анализ данных, ориентированный на бизнес подход, который помогает извлечь выгоду в нужное время на основе текущих тенденций.

Аналитический справочник [англ. analytical reference] — это свод информации практического назначения, содержащий наиболее важные аналитические сведения для номенклатуры, контрагентов или каких-либо процессов. Статья про справочники.

Аномалия [англ. anomaly] — это то, что отклоняется от стандартного шаблона или ожидаемого результата. При анализе данных аномалия также известна как выброс.

Асимметрия [англ. asymmetry] — это отсутствие симметрии в распределении данных. Она может быть положительным, отрицательным или неопределенным значением, а его значение зависит от отсутствия симметрии действительно значимой случайной величины.

Аудит аналитики [англ. analytics audit] — это процесс проверки настройки и конфигурации аналитических процессов, с целью убедиться, что все важное отслеживается, а также что разные источники данных совпадают.

Б

База данных [англ. database] — это компьютерная система (облачная или локальная), которая хранит данные в постоянном состоянии, обычно для извлечения и изменения другим программным обеспечением. Программное обеспечение для аналитики, отчетности и анализа считывает, интерпретирует и отображает данные базы данных.

Бивариция [англ. bivariation] — это математическая система, содержащая две независимые (двумерные) переменные. Переменные могут быть независимыми (не влияющими друг на друга) или зависимыми (влияющими друг на друга).

Бизнес-аналитика [англ. business analytics] — включает в себя анализ бизнес-данных для осуществления изменений в компании. Она ориентирована на процесс и на использование данных в качестве функционального инструмента принятия решений для повышения эффективности бизнеса, бизнес-операций и прибыли бизнеса.

Большие данные [англ. big data] описывают большой набор данных, который постоянно растет. Данные разнообразны и могут включать структурированные, полуструктурированные и неструктурированные данные, которые можно использовать для машинного обучения и расширенной аналитики.

В

Визуализация данных [англ. data visualization] — это форма визуальной коммуникации, которая представляет данные в формах, которые легко понять (часто диаграммы или таблицы), и позволяет анализировать и рассуждать об этих данных; визуальное представление данных.

Временной ряд [англ. time series] — относится к последовательности числовых данных, проиндексированных в точках с одинаковым интервалом. Это используется для отслеживания движения и прогресса каждой из точек данных.

Выборка [англ. selection] используется в статистическом анализе для предопределения наблюдений и входных данных большой совокупности. Выборка занимает меньше времени, поскольку она использует определенную процедуру и помогает сделать вывод о характеристиках совокупности.

Г

Гипотеза [англ. hypothesis] — это предлагаемая идея, основанная на имеющейся информации. Гипотеза дополнительно исследуется с помощью экспериментов и исследований. Проверка гипотезы используется в статистике, чтобы определить, следует ли принять или отклонить нулевую гипотезу.

Д

Данные [англ. data] — это набор значений качественных или количественных переменных, собранных для сравнения или анализа.

Дашборд [англ. dashboards] — это инструмент, который предоставляет централизованные интерактивные средства мониторинга, измерения, анализа и извлечения различных ключевых показателей, на котором информация организована и представлена в удобном для чтения виде (графическом или табличном)

Делистинг [англ. delist] – вывод продукции из ассортимента торговой точки, процедура обратная листингу

Дистрибьютор [англ.  ] — это организация, действующая как один из связующих каналов продаж продукции от производителя до конечного пользователя

ЕЁ

Емкость рынка [англ. market capacity] — это общий доход, полученный от продажи всех продуктов и услуг на данном рынке. Размер рынка также может представлять количество потребителей или потенциальных покупателей в определенном сегменте рынка.

Ж

Жизненный цикл товара [англ. product life cycle] — это время, которое проходит с момента появления продукта на рынке до момента, когда он исчезает с прилавков магазинов.

З

Задолженность [англ. arrears] — это денежная сумма, которую заемщик должен кредитору, взятая на определенный период времени.

Закон Парето [англ. Pareto ‘s law] — это наблюдение экономиста Вильфредо Парето, согласно которому большинство вещей в жизни распределяются неравномерно — одни вносят больший вклад, чем другие. Более простая суть – 20% усилий дают 80% результата.

Зрелость рынка [англ. market maturity] — это стадия жизненного цикла товара или услуги, при которой достигнуто равновесие в потреблении и скорость роста продаж минимальна. В самом простом определении это переход от подхода, ориентированного на продавца, к подходу, ориентированному на покупателя.

И

Инжиниринг данных [англ. data engineering] — это отрасль науки о данных, которая занимается механизмами сбора и анализа данных. Инженеры данных гарантируют, что данные, используемые компанией, являются точными, надежными и организованными.

Инновация [англ. innovation] — это процесс разработки и внедрения новых творческих методов производства или способов мышления ранее не применяемых в компании

Итерация [англ. iteration] —  это набор инструкций, которые повторяются определенное количество раз или до тех пор, пока не будет выполнено заданное условие.

К

Кластерный анализ [англ. cluster analysis] — это статистический метод анализа имеющихся данных, который включает в себя выявление определенных общих черт в данных и их соответствующую кластеризацию в группы.

Конвейер данных аналитики [англ. analytics data pipeline] — это система, которая может выполнять потоковую передачу и/или пакетную загрузку данных из разных источников данных в одну или несколько баз данных или хранилищ данных.

Конверсия [англ. conversion] — это момент, когда действие или ответ на призыв к действию приводит к желаемому результату (т. е. к подписке на информационный бюллетень или покупке продукта).

Л

Линейная регрессия [англ. linear regression] используется в статистике для определения взаимосвязи между независимыми переменными и зависимыми переменными. Используя статистические расчеты, она строит линию тренда между переменными, чтобы показать взаимосвязь между ними.

Листинг [англ. listing] — обязательная процедура в сетевой торговле по занесению продукции в список, допустимой к продаже в торговой точке сети. По сути, ввод новой продукции в ассортимент торговой точки сети.

М

Машинное обучение [англ. machine learning] — это использование компьютерами статистических моделей и алгоритмов для выполнения задач без явного программирования для них. Вместо этого компьютеры получают доступ к данным и изучают шаблоны для выполнения задач.

Медиана [англ. median] — это значение, лежащее в середине, если наблюдаемые значения расположены в порядке возрастания. Если количество наблюдаемых значений четное, медиана является средним значением двух значений, лежащих посередине.

Метрика [англ. metrics] — это единица измерения, которую можно использовать для оценки и отслеживания производительности за определенный период времени.

Многовариантный анализ [англ. multivariate analysis] — это метод, используемый для анализа данных, содержащих две или более независимых переменных, с целью прогнозирования значения зависимой переменной.

Многоугольник конкурентоспособности [англ. competitiveness polygon] — это метод, который достаточно быстро позволяет провести анализ конкурентоспособности как компании в целом, так и отдельного товара в сравнении с ключевыми аналогами/конкурентами. Подробная статья.

Моделирование временных рядов [англ. time series modeling] — это метод прогнозирования или предсказания, в котором данные на основе времени используются для получения дополнительной информации. Данные, основанные на времени, включают данные, которые отслеживались в течение оговоренного периода времени и анализировались для последующего принятия обоснованного решения.

Моделирование данных [англ. data modeling] — это процесс создания упрощенной схемы программной системы и содержащихся в ней элементов данных с использованием текста и символов для представления данных и их потоков. Целью моделирования является понятная иллюстрацию имеющихся данных и их взаимосвязь в общей информационной системе.

Н

Нормализация данных [англ. data normalization] — относится к процессу структурирования базы данных с целью улучшения данных и устранения избыточности или других нежелательных аномалий.

Нормальное распределение [англ. normal distribution] — это термин, используемый в теории вероятностей и относящийся к действительным случайным величинам, распределение которых неизвестно. Симметричное относительно среднего, нормальное распределение указывает на то, что данные, близкие к среднему, встречаются чаще, чем данные, далекие от среднего.

Нумерическая дистрибьюция [англ. numerical distribution] – это доля торговых точек, в которых представлена анализируемая продукция по отношению к общему количеству торговых точек исследуемого рынка.

О

Обработка данных [англ. data processing] — это программное обеспечение, предназначенное для извлечения бизнес-данных из всех источников данных, а также для очистки и преобразования данных.

Озеро данных [англ.  data lake] — это система, которая хранит данные в необработанном формате. Неструктурированный, собственный и различных размеров файл в озере данных не имеет фиксированного ограничения.

Описательная аналитика [англ. descriptive analytics] — использует исторические данные, чтобы получить представление о более поздних событиях или изменениях, произошедших в организации. Информация, полученная с помощью описательной аналитики, может дать полезную информацию, которую можно использовать для будущего анализа.

Оптимизация [англ. optimization] — это процесс повышения достижимой производительности за счет устранения нежелательных факторов. Он работает по принципу поиска альтернативы, несмотря на ограничения, и все это делается с минимальными затратами и временем.

Оценка [англ. estimation] — это анализ предмета на основе определенного набора критериев.

Очистка данных [англ. data cleansing ] — проверка бизнес-данных на корректность и возможность дальнейшего форматирования. Происходит при обработке данных, на первом этапе конвейера данных. Только чистые данные могут перейти к следующему шагу конвейера данных.

П

Пенетрация [англ. penetration] – (с точки зрения аналитики продаж, т.к. существует несколько вариантов значения слова), доля покупателей, приобретающих товар какой-либо категории, в общем количестве покупателей анализируемого рынка или сети.

План факт анализ [англ. plan fact analysis] – это инструмент, который предоставляет менеджменту наглядную картину работы компании, для принятия своевременных и оперативных управленческих решений. Подробно о данном анализе в статье.

Поведенческая аналитика [англ. behavioral analytics] — это ветвь аналитики данных, которая включает использование данных для получения информации о поведении потребителей. Он наиболее широко используется на сайтах электронной коммерции и платформах социальных сетей.

Подготовка данных [англ. data preparation] — относится к процессу работы с необработанными данными (доступ к ним, их сбор и консолидация) и объединению их в один файл для анализа.

Пользовательский интерфейс [англ. user interface] — это любой визуальный интерфейс, с которым пользователь технологии взаимодействует во время использования.

Потребительская аналитика [англ. consumer analytics] — включает в себя процессы, которые собирают большие объемы данных о клиентах. Данные могут дать компаниям ценную информацию о своих клиентах, включая их поведение, симпатии и антипатии. Это помогает бизнесу принимать обоснованные решения в отношении маркетинга и управления взаимоотношениями с клиентами.

Прогнозирование [англ. forecasting] — это процесс предсказания будущего путем анализа прошлых данных и понимания текущих и прошлых тенденций.

Процентиль [англ. percentile ] — используется в статистике для понимания и интерпретации набора данных. Это относится к значению, при котором определенный процент баллов падает ниже этого числа.

Р

Расширенная аналитика [англ. advanced analytics] — относится к случаям, когда машинное обучение и естественные языки обработки используются для улучшения анализа данных и обмена ими.

Расширенное обнаружение аномалий [англ. advanced anomaly detection] — это инструменты, используемые в системе, которые помогают обнаруживать серьезные аномалии, которые в противном случае могли бы остаться незамеченными. Они работают, выдавая раннее предупреждение, тем самым экономя время, извлекая выгоду из сэкономленного времени, принимая меры и сокращая человеческие усилия.

Регрессия [англ. regression] — это статистическая мера, используемая для определения взаимосвязи между средним значением одной переменной (зависимой) и соответствующими значениями других переменных (независимых).

С

Статистика [англ. statistics] — это раздел математики, занимающийся сбором, организацией, анализом, интерпретацией и представлением данных. Статистика помогает характеризовать набор данных и распространять информацию в области экономики, науки, здравоохранения и многих других.

Сводная таблица [англ. pivot table] — обобщает информацию, извлеченную из больших подробных наборов данных. Данные сводной таблицы могут отображаться в виде таблицы, круговой диаграммы или гистограммы.

Т

Темплейт [англ. template] — это форма, форма или шаблон, используемые в качестве руководства для создания или воспроизведения чего-либо.

Тепловая карта [англ. heat map] — это графическое представление данных, в котором отдельные значения представлены в виде цветов.

У

Управление данными [англ. data management] — связано со всем, что связано с использованием данных как незаменимого ресурса. Это включает в себя получение, хранение и защиту данных, чтобы обеспечить их доступность и надежность.

Ф

Факторный анализ [англ. factor analysis] — это способ, при котором большое количество переменных сводится к меньшему количеству понятных факторов. По сути, это способ найти скрытые шаблоны, показать, как эти шаблоны перекрываются, и показать, какие характеристики видны в нескольких шаблонах.

Х

Характеристика товара [англ. product characteristics] — это элементы, атрибуты или свойства самого продукта, которые можно добавить к определению товара, чтобы расширить представление о каждом продукте. Примеры включают цвет, вес, размеры, качество поверхности, твердость, внешний вид, состав материала и т.д.

Ц

Центр обработки данных [англ. data processing center] — это набор компьютерных серверов (в некоторых случаях также коммутаторы, брандмауэры и маршрутизаторы), который используется для хранения, обработки и распределения огромных объемов данных.

Ч

Частота [англ. frequency] — это количество повторений регулярно происходящих событий любого вида в единицу времени

Чистая прибыль [англ. net profit] — это результат операционной и финансовой деятельности организации в отчетном периоде. Иными словами – это доходы компании за минусом всех расходов и налогов.

ШЩ

Шкала [англ. scale] — это принятая система чисел для оценки измерения и выявления взаимосвязей различных элементов системы.

Шкалирование [англ. scaling] — это метод создания модели экономических процессов с использованием числовых рядов или шкал.

Э

Эластичность [англ. elasticity] — это мера того, насколько чувствительна переменная к изменениям любой другой переменной. Для предприятий эластичность может относиться к взаимосвязи между спросом и ценой.

Ю

Юнит [англ. unit] — это отдельное звено, выполняющее определенную функцию и принятое в качестве эталона для измерения определенных параметров

Я

Ячейка [англ. cell] — это отдельное звено в сети, цепочке или системе

Поделиться с друзьями