Перейти к содержанию

Интеграция R7K12 с Google BigQuery

Google BigQuery — это облачный сервис с высочайшей скоростью обработки огромных массивов данных. При его использовании не понадобится арендовать сервер и оплачивать поддержку. Стоимость BigQuery значительно ниже стоимости аренды самого примитивного сервера. Сервис позволяет проводить анализ больших объёмов информации сразу в облаке в отличие от других аналогичных систем. С BigQuery Вы сможете обрабатывать терабайты данных за считанные секунды. Эта база данных может хранить огромное количество данных. Это значит, что вся Ваша статистика со всех источников (весь трафик сайта) за каждый день может накапливаться, храниться в этом облаке и использоваться для аналитики и визуализаций. Следующее преимущество — простота в использовании. В любой другой системе управления базами данных (СУБД) помимо знания SQL придется долго разбираться с тонкостями администрирования и настройками базы. У BigQuery всю административную часть на себя взял Google. В этом сервисе нет никаких настроек, индексов, движков таблиц, тайм-аутов или внешних ключей. Реализована поддержка только одной кодировки — UTF-8. Для работы с BigQuery достаточно знать, как загрузить данные в BigQuery, и иметь базовые знания в SQL. Для чего и кому это может понадобиться?

  1. В первую очередь это нужно в том случае, когда Google Analytics анализирует не все данные, а только небольшую выборку (которая может в некоторых случаях составлять не более 1% от всех данных). Основываться на таких данных при анализе — нельзя.
  2. Второй явный случай — это когда Вы превышаете какие-либо лимиты Google Analytics по сбору данных, а их у Google Analytics достаточно много (https://developers.google.com/analytics/devguides/collection/ios/v3/limits-quotas?hl=ru#overview).
  3. Третий случай — когда аналитика проводится в стороннем инструменте, например Microsoft Power BI и т.д.

Что Вам нужно для интеграции:

  1. Ваш аккаунт BigQuery. Если такового нет — нужно создавать.
  2. Доступ в R7K12. Вход через Ваш аккаунт Google — это необходимо для безопасности и предоставления качественного сервиса.
  3. Важно: аккаунт для доступа в Google BigQuery и в R7K12 должен быть одним и тем же.

Как начать работу в Google BigQuery?

Войдите в Google Cloud Platform. Примите условия бесплатного пробного периода.

Далее введите платежные данные. При первом запуске система предложит активировать бесплатный пробный период и получить кредит $300 на 12 месяцев.

Платежные данные Google запрашивает для того, чтобы убедиться, что Вы не робот. Оплата не начнет списываться, пока Вы сами не оформите платную подписку. Найдите вверху кнопку “Выбрать проект” и нажмите её. Появится окно выбора области действия.

Нажмите “Создать проект”. Перейдите в раздел оплаты и привяжите платежный аккаунт. Затем выберите и привяжите платежный аккаунт для своего проекта. Теперь проект привязан к только что созданному платежному аккаунту. Следующим шагом будет подключение BigQuery API. В панели управления нажмите “Продукты и сервисы” (в верхнем левом углу кнопка в виде круга с тремя горизонтальными линиями) и перейдите в “API и сервисы”. Здесь Вы увидите информацию о подключенных API. Если у Вас не включенных API и сервисов, нужно подключить. Нажмите “+ Включить API и сервисы”. Найдите и выберите из предложенных библиотек “BigQuery API”. Для работы в интерфейсе Google BigQuery необходимо включить “BigQuery API”.  Чтобы это сделать — нажмите “Включить”. Вы перейдете в меню данного API. На этом этапе работа с Google Cloud Platform завершается. Можете закрыть вкладку.

Управление наборами данных в Google BigQuery

Перейдите в интерфейс Google BigQuery и создайте Dataset (набор данных), в который каждый день с R7K12 будут загружаться данные. Структура данных в Google BigQuery состоит из проекта с набором данных, содержащим таблицы. Название Dataset — это название кампании (сайта) на латинском, может содержать цифры, вместо пробела — нижнее подчеркивание. Для этого выберите проект (Ваш проект), в который будут загружаться данные. В поле Dataset ID необходимо задать имя набора данных, в примере ниже назвали его «test1». Когда вы создаете набор данных в BigQuery, имя набора данных должно быть уникальным для каждого проекта. Имя набора данных может:

  • содержать до 1024 символов;
  • содержать буквы (верхний или нижний регистр), цифры и символы подчеркивания.

Имена наборов данных не могут:

  • начинаться с цифры или подчеркивания;
  • содержать пробелы или специальные символы (например, &, @ или%).

Настраиваем интеграцию в системе R7K12

Войдите в систему сквозной аналитики R7K12 с помощью аккаунта Google, у которого есть доступ и к R7K12, и к Google BigQuery. Выберите свой проект. На вкладке “Интеграция” выберите “Создать” настройку интеграции с Google BigQuery. Создание подключения к Google BigQuery:

  1. Выберите используемый аккаунт Google BigQuery: нажимаем “Выбрать аккаунт”. В появившемся окне нажимаем “Добавить аккаунт” для прохождения авторизации.

       2. Войдите через аккаунт Google, который ранее использовали для создания проекта в BigQuery.        3. Выберите созданный Вами проект данных в поле “Выберите проект”.       4. В поле "Выберите базу данных" выберите Dataset (набор данных), который Вы создали ранее в Google BigQuery. Укажите дату, с которой хотите выгрузить данные (дата выгрузки не должна быть ранее даты создания проекта в R7K12). Далее нажмите переключатель "Передача данных аналитики".       5. Для того, чтобы выгрузить все данные по проекту из R7K12 d Google BigQuery, необходимо создать три интеграции: данные о визитах (sessions), данные о расходах (cost), данные о сделках (deals). В поле приставки таблицы вписываем название таблицы для данных о визитах, например "sessions". Выбираем набор данных "Данные о визитах" и жмем кнопку "Создать".       6. Вы создали подключение к Google BigQuery. После этого созданная интеграция появится в списке подключенных аккаунтов. В перечне подключенных аккаунтов видно, под каким логином создавалось подключение, в какой проект, набор данных и таблицу передаются данные. Теперь нужно выгрузить данные о расходах и сделках, если хотите видеть данные по ним в Google BigQuery. Для этого дважды повторите пункты 1-5 (для создания набора данных о сделках и о расходах). Где в 5-м пункте, выбирая определенный набор данных, указывайте соответствующую приставку таблицы ("sessions" или "cost"). Так как Вы уже раз авторизовались, ваш аккаунт будет в списке добавленных, его нужно будет только выбрать для новой интеграции. После этого у Вас в списке подключенных аккаунтов должно быть три интеграции для этих наборов данных. Посмотреть их структуру (схему данных) можно по ссылке Структура данных в Google BigQuery. В меню настроек интеграций, нажав на кнопку с тремя точками, Вы можете приостановить передачу данных, удалить, а также просмотреть очередь. Чтобы посмотреть статус загрузки данных по дням, откройте меню управления интеграцией, нажав на три точки справа, затем выбрав “Очередь”. Здесь выводятся подробные сведения о статусе загрузке данных. В случае, если данные по какой либо причине нужно перезагрузить — нажмите “Перезапустить задачу”. При верной настройке интеграции данные будут загружаться в Google BigQuery каждый день в таблицу, в которую настроили выгрузку. Данные хранятся в виде таблиц по дням — к каждой таблице к названию (Table ID) добавляется дата, как показано на скрине. К приставке таблицы в скобках пишется количество таблиц по дням, которые в ней содержатся. Получается, что одна большая таблица за определенный период состоит из таблиц поменьше, которые содержат данные только за один день.