Репост из: Python Portal | Программирование
PySpark.pdf
Делюсь руководством по работе с PySpark
💧Создание среды и SparkSession.
💧Извлечение данных (CSV, JSON, Parquet, базы данных).
💧фильтрация, сортировка, группировка, работа с пропущенными значениями, добавление и переименование столбцов.
💧преобразование типов, разбор JSON, работа с массивами и словарями.
💧кэширование, объяснение плана выполнения.
💧создание ML-пайплайнов, обработка текста.
💧чтение и запись потоковых данных.
💧Интеграция с большими данными и облаком.
👉 @PythonPortal | #ресурсы | дать буст
💧Создание среды и SparkSession.
💧Извлечение данных (CSV, JSON, Parquet, базы данных).
💧фильтрация, сортировка, группировка, работа с пропущенными значениями, добавление и переименование столбцов.
💧преобразование типов, разбор JSON, работа с массивами и словарями.
💧кэширование, объяснение плана выполнения.
💧создание ML-пайплайнов, обработка текста.
💧чтение и запись потоковых данных.
💧Интеграция с большими данными и облаком.
👉 @PythonPortal | #ресурсы | дать буст