Голосов: 0
#1
Прикладной анализ данныхИнтенсивный курс по изучению машинного обучения и анализа данных. Если вы приходите в восторг от слов «дата», «питон», «граф», «ближайшие соседи», «деревья решений», добро пожаловать к нам в школу. А еще вы должны быть знакомы с математической статистикой и иметь опыт программирования на языке Python.
Мы не только читаем лекции, но и решаем реальные бизнес-задачи как на малых, так и больших данных. Практика на каждом занятии.
Количество занятий: 28 занятий
Длительность: 3,5 месяца
Формат обучения: онлайн
Преподаватели: Сергей Марин, Александр Крот и другие
Стоимость курса: 100 000 Р
Занятие - Введение в машинное обучение. Основные типы задач и методы их решения
Теория
- Введение в машинное обучение, необходимые навыки
- Задачи классификации, регрессии и кластеризации
- Извлечение, отбор и преобразование признаков
- Особенности решения задач машинного обучения
- Обзор инструментов для решения задач машинного обучения
- Обзор графовых задач
- Знания, необходимые для успешного освоения науки о данных
- Особенности обработки больших данных
- Workflow решения задач анализа данных
- Конкретные примеры решения задач анализа данных
Занятие - Библиотеки и инструменты для анализа данных. Математика в машинном обучении
Теория
Математика в машинном обучении: статистические распределения, нормализация признаков, приведение к нормальному распределению, метод максимального правдоподобия, проверка статистических гипотез, методы оптимизации
Работа с векторами и матрицами в библиотеке NumPy
Обзор библиотеки для научных вычислений SciPy
Визуализация данных с Matplotlib и Seaborn
Чтение и обработка данных с библиотекой Pandas
Практика
Визуализация и предварительный анализ данных соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
Первичный анализ данных с Seaborn
Решение задачи соревнования Kaggle "Titanic: Machine Learning from Disaster" c помощью Pandas
Занятие - Семинар. Настройка environment (Anaconda, виртуальная машина). Практика с pandas, numpy, matplotlib, seaborn.
Занятие - Обучение с учителем. Задачи классификации и регрессии
Теория
- Деревья решений
- Энтропия, прирост информации и неопределенность Джинни
- Алгоритмы ID3, C 4.5, CART
- Работа с признаками – отбор, преобразование, построение
Практика
- Применение дерева решений Scikit-learn к синтетическому набору данных и кданным соревнования Kaggle Inclass по автострахованию
- Настройка параметров дерева, кросс-валидация
- Пример извлечения признака для набора данных соревнования Kaggle Inclass по автострахованию
- Практика на применение дерева решений и случайного леса к набору данных соревнования "Titanic: Machine Learning fromDisaster"
Занятие - Оценка качества алгоритмов машинного обучения
Теория
- Обзор библиотеки машинного обучения Scikit-learn
- Метрики качества алгоритмов машинного обучения - доля (accuracy), точность (precision), полнота (recall), F-score, ROC-кривая, AUC
- Случай несбалансированных классов
- Случай классификации на несколько классов
- Логистическая регрессия
- Метод опорных векторов (Support Vector Machine), ядра
Практика
- Сравнение разных методов при решении задачи Kaggle Inclass по предсказанию типа выплат по автостраховке
- Примеры решения задач классификации и регрессии — наборы данных UCI
Занятие - Семинар. Решение задач классификации с Kaggle. Альтернативные метрики качества алгоритмов классификации.
Занятие - Продвинутые методы классификации и регрессии. Переобучение.
Теория
Теория
- Нейронные сети, алгоритм обратного распространения ошибки
-Построение ансамблей алгоритмов
- Случайный лес (Random Forest)
- Бустинг (boosting) и бэггинг (bagging), Xgboost
- Стекинг
- Переобучение, кросс-валидация, регуляризация
- Пример регуляризации для логистической регрессии
Занятие - Продвинутые методы классификации и регрессии. Переобучение.
Практика
Теория
- Сравнение случайного леса, бустинга и бэггинга на наборах данных репозитория UCI
- Случайный лес на примере набора данных Titanic
- Случайный лес на примере набора данных по автострахованию
- Практика использования библиотек Lasagne NN и Xgboost
- Разбор решения задачи Kaggle «Otto Group Product Classification
- Challenge» Станиславом Семеновым и Gilberto Titericz (1 место)
Занятие - Обучение без учителя
Теория
- Введение в обучение без учителя
-Задача кластеризации — алгоритм k-means
- Иерархическая кластеризация
- Спектральная кластеризация
- Плотностные методы кластеризации
- Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
- Поиск выбросов и аномалий в данных - статистический подход, одноклассовая машина опорных векторов
Практика
- Пример поиска аномалий в данных
Занятие - Семинар. Решение задач классификации и регрессии с Kaggle. Борьба с переобучением.
Занятие - Анализ социальных сетей.
Теория
Теория
- Введение в теорию графов
- Классические алгоритмы на графах
- Поиск в ширину и поиск в глубину
- Алгоритм PageRank
- Алгоритмы поиска связных компонент в графе / сильно связных компонент в графе
- Кластеризация на графах/обнаружение в соц. сетях
Занятие - Анализ социальных сетей. Практика
Практика
- Применение машинного обучения в графовых задачах
- Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
- Введение в случайные и веб-графы и как они помогают на практике в реальных задачах
- Обзор инструментов для работы с графами
Занятие - Семинар. Решение алгоритмических задач на графах.
Занятие - Обнаружение знаний в данных
Теория
- Поиск частых множеств (товаров) и ассоциативные правила
- Алгоритмы Apriori и FP-growth
- Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
- Поиск паттернов с ограничениями
- Поиск частых последовательностей
- Поиск частых подграфов
Практика
- Знакомство с инструментом SPMF
- Анализ последовательностей на примере демографических данных
Занятие - Рекомендательные системы
Теория
- Введение в коллаборативную фильтрацию
- Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства
- Оценка качества рекомендательной системы
- Рекомендации на основе ассоциативных правил
- Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
-Мультимодальная кластеризация и рекомендации в фолксономиях
Практика
- Case-study: рекомендация радиостанций
Занятие - Семинар. Разработка собственной рекомендательной системы кинофильмов. Решение проблемы холодного старта, разработка метрик качества алгоритмов рекомендации.
Занятие - Обработка текстов.
Теория
Теория
- Задачи обработки естественного языка (NLP)
- Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
- Модели представления текстов: мешок слов, VSM, синтаксические деревья
- Современные методы: word2vec, topic modeling
Занятие - Обработка текстов. Практика
Практика
- Поиск ключевых слов
- Определение сходства документов
- Кластеризация текстов
- Поиск похожих слов
Занятие - Семинар. Подробный обзор библиотеки NLTK, решение задач с Kaggle.
Занятие - Введение в анализ больших данных и масштабируемое машинное обучение.
Теория
Теория
- Машинное обучение: подход MapReduce, онлайн-обучение
- Стохастический градиентный спуск
- Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
- Обзор инструмента Apache Spark
- Введение в функциональное программирование (map, filter, reduce, lambda-функции)
- Обзор библиотек MLlib и GraphX Apache Spark
- Коллаборативная фильтрация с Apache Spark
Занятие - Введение в анализ больших данных и масштабируемое машинное обучение. Практика
Практика
- Практика использования функций map, filter, reduce и lambda-функций
- Практика использования методов работы с устойчивыми распределенными наборами данных (RDD)
- Анализ веб-логов с Apache Spark
- Пример построения рекомендательной системы фильмов с Apache Spark MLlib на данных MovieLens.
- Пример решения задачи классификации со Spark MLlib
- Предсказание кликов пользователей с Apache Spark
Занятие - Альтернатива большим данным. Large Scale Machine Learning. Обзор инструмента vowpal wabbit.
Теория и практика
Теория
- Что делать, если мало оперативной памяти
- Введение в онлайн обучение
- Метрики качества - progressive loss
- Выбор функции потерь
- Hashing trick
- Подбор параметров регуляризации при он-лайн-обуяении
- Дообучение алгоритмов
Практика
- Обзор инструмента vowpal wabbit
- Пример решения задачи в 2 строки с помощью vowpal wabbit
- Обзор нестандартных параметров vw
Занятие - Семинар. Практика с Apache Spark, разбор альтернативных методов работы с большими данными.
Занятие - Соревнования по анализу данных.
Теория
Теория
- Обзор платформы Kaggle
- Зачем нужны соревнования по анализу данных
- Особенности задач в соревнованиях по машинному обучению
- Отличия задач соревнований по анализу данных от реальных бизнес-задач
- Решение задачи Kaggle «Driver Telematics Analysis» по определению профиля вождения водителя
Занятие - Соревнования по анализу данных. Практика
Практика
- Работа с категориальными признаками, различные подходы
- Решение задачи Kaggle «Caterpillar Tube Pricing» по предсказанию цены на конструкцию из труб
Занятие - Семинар. Разбор нестандартных задач с Kaggle.
Занятие - Deep Learning.
Теория и практика
- Введение в нейронные сети
- Обзор возможностей нейронных сетей
- Задачи обработки текстов
- Задачи обработки изображений и видео (Computer Vision)
- Инструменты (Theano, TensorFlow, Keras)
- Разбор классических задач Deep Learning
Занятие - Продуктовая аналитика.
Теория и практика
- Тестирование гипотез в продуктовой аналитике
- Маркетинговые метрики качества алгоритмов машинного обучения
- Оценка экономического эффекта моделей
- Основные B2C метрики: CAC, LT, LTV, ARPU, ARPPU
- Модели машинного обучения в CRM
Также приглашаю Вас принять участие в складчине на подготовительный курс для аналитиков от этой же конторы, он ведется для тех, кому нужно подготовиться к прохождению основного курса, на который мы собираемся здесь
Подготовительный курс Big Data для аналитиков
Для просмотра содержимого вам необходимо зарегистрироваться!Для просмотра содержимого вам необходимо зарегистрироваться!
Последнее редактирование модератором:
- Статус
- В этой теме нельзя размещать новые ответы.