Apache Airflow - это инструмент, который помогает управлять и планировать конвейеры данных. Согласно документации, он позволяет ”программно создавать, планировать и контролировать рабочие процессы”.
Airflow - важнейший инструмент для инженеров и ученых, работающих с данными. В этой статье я покажу вам, как установить его на Windows без Docker.
Хотя рекомендуется запускать Airflow с Docker, этот метод подходит для машин с малым количеством памяти, на которых невозможно запустить Docker.
Предварительные условия:
Эта статья предполагает, что вы знакомы с использованием командной строки и можете настроить свою среду разработки в соответствии с инструкциями.
Требования:
Для выполнения этого руководства вам потребуется Python 3.8 или выше, Windows 10 или выше и подсистема Windows Subsystem for Linux (WSL2).
Что такое подсистема Windows для Linux (WSL2)?
WSL2 позволяет запускать команды и программы Linux в операционной системе Windows.
Она предоставляет совместимую с Linux среду, которая работает в Windows, позволяя пользователям использовать инструменты и утилиты командной строки Linux на машине Windows.
Когда Python и WSL2 установлены и активированы на вашей машине, запустите терминал, найдя Ubuntu в меню ”Пуск”.
Шаг 1: Настройка виртуальной среды
Для работы с Airflow в Windows необходимо создать виртуальную среду. Для этого вам нужно установить пакет virtualenv.
Примечание: Убедитесь, что вы находитесь в корне терминала, набрав:
cd ~
pip install virtualenv
Создайте виртуальную среду следующим образом:
virtualenv airflow_env
А затем активируйте среду:
source airflow_env/bin/activate
Шаг 2: Настройка каталога
Создайте папку с именем airflow. Моя папка будет расположена в c/Users/[Имя пользователя]. Вы можете поместить свою в любое удобное для вас место.
Если вы не знаете, как пользоваться терминалом, вы можете выполнить действия, показанные на рисунке ниже:
Создайте каталог Airflow из терминала
Теперь, когда вы создали эту папку, вам нужно установить ее в качестве переменной окружения. Откройте скрипт .bashrc из терминала с помощью команды:
nano ~/.bashrc
Затем напишите следующее:
AIRFLOW_HOME=/c/Users/[YourUsername]/airflow
Установите путь к каталогу Airflow в качестве переменной окружения
Нажмите ctrl s и ctrl x, чтобы выйти из редактора nano.
Эта часть каталога Airflow будет навсегда сохранена как переменная окружения. В любой момент, когда вы откроете новый терминал, вы сможете восстановить значение переменной, набрав:
cd $AIRFLOW_HOME
Перейдите в каталог Airflow с помощью переменной окружения
Шаг 3: Установите Apache Airflow
Когда виртуальная среда все еще активна, а текущий каталог указывает на созданную папку Airflow, установите Apache Airflow:
pip install apache-airflow
Инициализируйте базу данных:
airflow db init
Создайте папку с именем dags внутри папки airflow. Она будет использоваться для хранения всех скриптов Airflow.
Просмотр файлов и папок, созданных Airflow db init
Шаг 4: Создание пользователя Airflow
Когда airflow только установлен, вам нужно будет создать пользователя. Этот пользователь будет использоваться для входа в пользовательский интерфейс Airflow и выполнения некоторых функций администратора.
airflow users create --username admin –password admin –firstname admin –lastname admin –role Admin –email youremail@email.com
Проверьте созданного пользователя:
airflow users list
Создайте пользователя Airflow и внесите в список созданного пользователя
Шаг 5: Запуск веб-сервера
Запустите планировщик с помощью этой команды:
airflow scheduler
Запустите другой терминал, активируйте виртуальную среду airflow, перейдите по адресу $AIRFLOW_HOME и запустите веб-сервер:
airflow webserver
Если по умолчанию используется порт 8080, измените порт, набрав:
airflow webserver –port <port number>
Войдите в пользовательский интерфейс, используя имя пользователя, созданное ранее с помощью команды “airflow users create”.
В пользовательском интерфейсе вы можете просмотреть предварительно созданные группы DAG, которые поставляются с Airflow по умолчанию.
Как создать первую группу DAG
Группа DAG - это сценарий Python для организации и управления задачами в рабочем процессе.
Чтобы создать группу DAG, перейдите в папку dags, созданную в каталоге $AIRFLOW_HOME. Создайте файл с именем “hello_world_dag.py”. Используйте VS Code, если он доступен.
Введите код с изображения ниже и сохраните его:
Пример сценария DAG в редакторе VS Code
Перейдите в пользовательский интерфейс Airflow и найдите hello_world_dag. Если он не отображается, попробуйте обновить браузер.
Вот и все. На этом установка Apache Airflow на Windows завершена.
Подведение итогов
В этом руководстве мы рассмотрели, как установить Apache Airflow на машину Windows без Docker и как написать сценарий DAG.
Я надеюсь, что описанные выше шаги помогли вам установить airflow на машину Windows без Docker.
В последующих статьях вы узнаете о концепциях и компонентах Apache Airflow.