Скоро [ML/Класс] DSCource 2. Data Mining с помощью Python

Статус
В этой теме нельзя размещать новые ответы.
VkurseBot

VkurseBot

Модератор
20 Сен 2020
0
783
50
Голосов: 0
#1
Юрий Кашницкий, Data Mining с помощью Python
Видео лекций, презентации, ссылки по второму курсу данной серии


"Мы постарались сделать программу так, чтобы в нее входили только самые основные навыки, необходимые в реальной работе. Здесь не будет длинной теории, только практически важные вещи."
  • Юрий Кашницкий, преподаватель Высшей Школы Экономики, умеющий объяснять сложные вещи простым языком, познакомит слушателей сперва с основными инструментами, которые пригодятся начинающему Data Scientist'у, а после проведет курс по машинному обучению, в котором даст необходимые навыки для построения прогнозных моделей

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) – собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности

Kaggle – это платформа для исследователей разных уровней, где они могут опробовать свои модели анализа данных на серьезных и актуальных задачах. Суть такого ресурса – не только в возможности получить неплохой денежный приз в случае, если именно ваша модель окажется лучшей, но и в том (а, это, пожалуй, гораздо важнее), чтобы набраться опыта и стать специалистом в области анализа данных и машинного обучения.


Данный курс освящает практическое применение алгоритмов обработки данных на примере решения одной из самых популярных задач платформы Kaggle, Titanic: Learning from Disaster (предсказание выживших в катастрофе пассажиров)

Урок 1. Введение
- Введение в машинное обучение, необходимые навыки
- Задачи классификации, регрессии и кластеризации
- Краткий обзор Kaggle
- Открытие соревнования Kaggle Inclass
- Знакомство с набором данных по автострахованию этого соревнования
- Статистические распределения, нормализация признаков, приведение к нормальному распределению
- Деревья решений
- Применение дерева решений Scikit-learn к набору данных iris и данным из контеста Kaggle Inclass
- Настройка параметров дерева, кросс-валидация

Урок 2. Обзор инструментов
- Работа с векторами и матрицами в библиотеке NumPy
- Обзор библиотеки для научных выичслений SciPy
- Тетрадки Jupyter (IPython) для презентации материала, содержащего код
- Визуализация данных с Matplotlib
- Чтение и обработка данных с библиотекой Pandas
- Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" c помощью Pandas
- Обзор библиотеки машинного обучения Scikit-learn

Урок 3. Обучение с учителем. Классификация
- Работа с признаками – отбор, преобразование, построение
- Метрики качества алгоритмов машинного обучения (accuracy, precision, recall, F-score). ROC-кривая, AUC
- Метод максимального правдоподобия
- Логистическая регрессия

Урок 4. Обучение с учителем. Ансамбли. Переобучение
- Случайный лес (Random Forest)
- Случайный лес на примере набора данных Titanic
- Случайный лес на примере набора данных по автострахованию
- Бустинг (boosting) и бэггинг (bagging)
- Сравнение бустинга и бэггинга на наборах данных репозитория UCI
- Стекинг. Демонстрация решения задачи категоризации продуктов Otto (вкратце)
- Переобучение, кросс-валидация, регуляризация
- Пример регуляризации для логистической регрессии

Урок 5. Обучение без учителя
- Обзор методов кластеризации, снижения размерности, поиска аномалий в данных
- Кластеризации городов России по социально-экономическим показателям
- Сингулярное разложение матрицы
- Пример снижения размерности изображений, сжатие изображений
- Снижение размерности как способ визуализации даных
- Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" с помощью Python

Урок 6. Продвинутые методы. API Scikit-learn
- Нейронные сети, библиотеки nolearn и Lasagne NN
- Библиотека XGBoost, сравнение с градиентным бустингом в Scikit-learn
- Пример голосования между алгоритмами для повышения качества классификации
- Смешивание (блендинг) алгоритмов на примере задачи Kaggle "Titanic: Learning from Disaster"
- Стекинг. Пример для Titanic
- Разработка собственного класса Scikit-learn Estimator для задачи по автострахованию Kaggle Inclass. kNN с подобранной метрикой.

Цена инфопродукта - 7000 руб.

 
Последнее редактирование модератором:
Статус
В этой теме нельзя размещать новые ответы.

О нас

Слив платных курсов - скачать бесплатно

На форуме мы делимся сливами популярных курсов в различных областях знаний! Если вы хотите повысить свою профессиональную квалификацию, но не хотите тратить много на курсы, то вы попали по адресу.

VKURSE.INFO регулярно публикует:

  • слив курсов от лучших онлайн-школ, инфобизнесменов и блогеров;
  • вебинары, марафоны, мануалы, от популярных блогеров на тему здоровья и саморазвития;
  • торрент-курсы, книги и гайды, обучения веб-дизайну, программированию, создания сайтов, бизнеса, продвижения в социальных сетях актуальных сегодня.

Мы ежедневно обновляем нашу коллекцию, чтобы вы могли бесплатно найти и скачать необходимый слив курсов обучения

Быстрая навигация

Меню пользователя