Делюсь руководством по работе с PySpark 💧Создание среды и SparkSession.
💧Извлечение данных (CSV, JSON, Parquet, базы данных).
💧фильтрация, сортировка, группировка, работа с пропущенными значениями, добавление и переименование столбцов.
💧преобразование типов, разбор JSON, работа с массивами и словарями.
💧кэширование, объяснение плана выполнения.
💧создание ML-пайплайнов, обработка текста.
💧чтение и запись потоковых данных.
💧Интеграция с большими данными и облаком.
👉
@PythonPortal | #ресурсы |
дать буст