Luxms Data Boring помогает инженерам данных, аналитикам готовить данные для эффективной скоростной визуализации в Luxms BI, когда классические витрины DWH не удобны или не в состоянии обеспечить необходимую скорость отклика на больших данных. Инструмент решает следующие функциональные и технические задачи:

Высокоскоростной автоматизированный сбор данных из систем и хранилищ;

Модернизация ETL-процессов за счёт подготовки слоя горячих данных – данных, необходимых в оперативной работе;

Эффективная обработка и структурирование данных – фильтрация, группировка, агрегирование и расчёты;

Подготовка витрин данных для визуализации в BI-системе;

Автоматизация и упрощение выполнения регулярных etl-задач через графический интерфейс.

Целевое использование

Приоритет хранилища – интерактивное обслуживание пользователей. Пользователей много, поэтому ресурсная квота на сложную обработку данных минимальна

Нагружать хранилище тяжёлыми запросами из BI нет возможности в силу архитектурных или производительных ограничений

Архитектура

Горячий слой: ClickHouse/Arenadata Quickmarts
Тёплый слой: Greenplum/Arenadata DB
BI: Luxms BI
Визуальный интерфейс: Node-Red
Высокооптимизированные MPP компоненты на Java для работы с Luxms BI, PostgreSQL, Kafka, ClickHouse/Arenadata Quickmarts, Greenplum/Arenadata DB

Экспорт данных из JDBC источников с оптимизацией для PostgreSQL
Загрузка данных в JDBC источники с оптимизацией для PostgreSQL и ClickHouse/Arenadata Quickmarts
Выполнение SQL запросов в JDBC источниках
Коннектор для Kafka
Коннектор для Redis
Коннектор для TCP/UDP сокетов
HTTP сервер и HTTP клиент
Системы обработки на основе правил
Методы машинного обучения
Математические методы любой сложности: статанализ, ML, NLP, скрипты на R/Python.
Для текстовых данных – методы NLP

Схема работы

Результат апробации на реальных данных