Сердце современной платформы обработки данных
За последние 10 лет SQL Server стал мощной платформой обработки данных. Решение рассчитано на критичные бизнес-приложения по надежности и отказоустойчивости.
SQL Server учитывает все современные требования по работе с данными разных форматов и становится естественным выбором для построения платформы интеграции, управления и анализа данных.
Основные требования к современным платформам обработки данных
В последние годы генерируется огромное количество данных, увеличивается их разнообразие, смысл, формы. Некоторые данные имеют реляционный формат и генерируется традиционными транзакционными инструментами. Эти данные всегда структурированы, их смысл и ценность хорошо понятны. Но большинство данных существут в сыром виде. Например, данные с сенсоров (Интернет вещей), датчиков, записывающих устройств, видеокамер. Все эти данные имеют большую ценность, которую пока сложно извлечь.
Современная платформа обработки данных должна принимать различные виды данных, обрабатывать их, интегрировать. Вместе с тем такая платформа должна уметь:
- переносить существующие инструменты обработки данных в облачную платформу без серьезных изменений;
- обрабатывать данные как в существующих локальных инфраструктурах, так и в облаках;
- разрабатывать современные облачные приложения с нуля.
Azure SQL отвечает за облачную часть обработки данных. SQL Server 2019 – за локальную.
Эволюция SQL Server
Производительность |
Самостоятельная бизнес-аналитика |
Готовность к работе в облаке |
Бизнес-критичная и облачная производительность |
Docker и Linux |
Интеллектуальная обработка всех данных |
SQL Server 2008 |
Прозрачное шифрование баз данных |
SQL Server 2008 R2 |
PowerPivot | Интеграция SharePoint | Master Data Services |
SQL Server 2012 |
AlwaysOn | ColumnStore в памяти | Data Quality Services | Power View | Облако |
SQL Server 2014 |
Обработка в памяти для всех рабочих нагрузок | Производительность и масштабируемость | Оптимизация для гибридного облака | HDInsight | Облачная бизнес-аналитика |
SQL Server 2016 и 2017* |
Лучшая производительность в отрасли | Сквозная мобильная бизнес-аналитика | Встроенный искусственный интеллект | Выбор языка и платформы | Простая миграция в облако |
SQL Server 2019 |
Интеллектуальная обработка всех данных | Работа с кластерами больших данных при помощи Spark и HDFS | Встроенные R и Python | Классификация данных и контроль соответствия нормативным требованиям | Azure Data Studio |
*поддержка Linux и Docker впервые реализована в SQL Server 2017
1. SQL Server упрощает развертывание, передачу и интеграцию больших данных
- В SQL Server встроено специальное решение для обработки больших данных на основе Kubernetes. Фреймворк Kubernetes обеспечивает развертывание хранилищ HDFS, реляционного модуля SQL Server и средств аналитики Spark в виде контейнеров.
- В состав SQL Server 2019 входят Spark и HDFS, с помощью которых можно выполнить чтение и запись именно в HDFS, используя SQL Server или Spark. Архитектура Kubernetes обеспечивает гибкое масштабирование вычислительных мощностей и хранилищ по запросу.
2. Интеграция структурированных и неструктурированных данных
На сегодняшний день при огромных объемах данных невыгодно конвертировать их в реляционные таблицы для хранения в СУБД. Два года назад компания Microsoft презентовала PolyBase. Технология позволяет экземпляру SQL Server обрабатывать запросы Transact-SQL, которые обращаются к данным Hadoop, и объединять данные из Hadoop и SQL Server. В SQL Server внешняя таблица или внешний источник данных обеспечивает соединение с Hadoop, виртуализируя внешние источники данных без необходимости их прямого импорта в реляционную базу, и потом позволяет обращаться к этим данным с запросами.
В итоге данные накапливаются в естественном формате и могут быть представлены в виде виртуальной таблицы. Виртуализация позволяет интегрировать данные разного формата, из разнородных источников и мест хранения без их репликации и перемещения, создавая единую виртуальную матрицу данных.
3. Высокая производительность
Microsoft ежегодно подтверждает высокую производительность SQL Server тестами производительности хранилищ данных и транзакционными тестами.
2019 версия получила отличные результаты в тестах:
- производительность OLTP;
- производительность DW для 1 ТБ, 10 ТБ и 30 ТБ;
- соотношение цены и производительности OLTP;
- соотношение цены и производительности DW для 1 ТБ, 10 ТБ и 30 ТБ.
4. Гибридная транзакционная/аналитическая обработка (HTAP)
Модель HTAP одновременно осуществляет операционные транзакции и аналитику на одних и тех же данных в одной и той же памяти. Данные операции реализуются также подходом in memory.
5. Поддержка постоянной памяти (РМЕМ)
Постоянная память (Persistent Memory, PMEM) – это быстрая память, которая хранит данные даже после отключения питания. Она обрабатывает данные in-memory, избавляется от необходимости передавать данные по каналам передачи и ускоряет обработку запросов на 30% для интенсивных рабочих нагрузок ввода-вывода.
Любой файл SQL Server, помещенный на устройство PMM, теперь доступен напрямую, минуя стек хранения операционной системы, используя при этом операции memcpy.
6. Интеллектуальная обработка запросов
Высокую производительность обеспечивает:
- параллелизация запросов;
- улучшенное масштабирование частых запросов благодаря механизмам их интеллектуальной обработки (отложенная компиляция табличных переменных ускоряет обработку запросов более чем на 50%).
Приложения и инструменты аналитики работают со всеми реляционными и большими данными через ведущий экземпляр SQL Server при помощи T-SQL.
Семейство функций интеллектуальной обработки запросов:
7. Безопасность и соответствие требованиям
Защиту конфиденциальных данных обеспечивает технология Always Encrypted с защищенными анклавами. Шифрование на месте позволяет выполнять криптографические операции с конфиденциальными данными без их перемещения за пределы базы данных.
Криптографические операции содержат шифрование столбцов. Теперь эти операции можно выполнять с помощью Transact-SQL, так как они не требуют перемещения данных из базы данных. Внутри защищенных анклавов поддерживаются все полнофункциональные вычисления, включая сопоставления и сравнения диапазонов, что значительно расширяет возможности их применения.
Always Encrypted с защищенными анклавами доступна в Windows Server 2019.
8. Выбор контейнеров и ОС
SQL Server 2019 достаточно гибкий в выборе платформы, языка программирования и средства доставки.
- Поддерживает Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu и Windows.
- Один и тот же уровень абстракции с SQL Server на Linux.
- Контейнеры Docker для Linux и Windows. Установка со встроенной поддержкой инструментов Linux: Yum lnstall, Apt-Get и Zypper.
- Возможность использования R, Python и Java при работе с T-SQL. Теперь расширение языка Java доступно для выполнения кода Java в SQL Server.
9. Azure Data Studio
Azure Data Studio (бывший SQL Operations Studio) – это упрощенное кроссплатформенное графическое средство управления и редактор кода. С помощью программы можно создавать запросы к реляционным и нереляционным базам данных с поддержкой разных операционных систем и источников данных. Azure Data Studio позволяет подключаться к SQL Server локально и в облаке, в Windows, macOS и Linux.
10. Интеллектуальный анализ данных
SQL Server поставляется вместе со Spark – популярным инструментом для машинного обучения, для продвинутой аналитики, с эффективной in memory машиной.
Правильный анализ и эффективное представление результатов напрямую влияет на эффективность анализа данных и возможность принимать на их основе управленческие решения.