Предварительная подготовка данных в Python. Том 1. Инструменты и валидация
Груздев Артем Владимирович
Код товара: 4951055
(0 оценок)Оценить
ОтзывНаписать отзыв
ВопросЗадать вопрос
1 / 2
PDF
Издательство:
Год издания:
2023
Описание
Характеристики
В двухтомнике представлены материалы по применению классических методов машинного обучения для различных промышленных задач.
Прочитав первый том, вы научитесь:
- работать в IPython и Jupyter Notebook;
- применять функции библиотеки NumPy;
- визуализировать результаты анализа с помощью библиотек matplotlib, seaborn и plotly;
- выполнять предварительную подготовку данных в библиотеке pandas;
- работать с классами scikit-learn, строящими модели предварительной подготовки данных и модели машинного обучения;
- применять различные стратегии валидации данных.
Прочитав первый том, вы научитесь:
- работать в IPython и Jupyter Notebook;
- применять функции библиотеки NumPy;
- визуализировать результаты анализа с помощью библиотек matplotlib, seaborn и plotly;
- выполнять предварительную подготовку данных в библиотеке pandas;
- работать с классами scikit-learn, строящими модели предварительной подготовки данных и модели машинного обучения;
- применять различные стратегии валидации данных.
код в Майшоп
4951055
возрастная категория
18+ (нет данных)
количество томов
1
количество страниц
816 стр.
размеры
242x170x47 мм
ISBN
978-5-93700-156-6
тип бумаги
офсетная (60-220 г/м2)
цвет
Белый
вес
1424 г
язык
Русский
переплёт
Твёрдый переплёт
Содержание
Введение
ЧАСТЬ 1. НЕМНОГО МАТЕМАТИКИ
1.1. Функция
1.2. Производная
1.3. Дифференцирование сложных функций
1.4. Частная производная
1.5. Градиент
1.6. Функция потерь и градиентный спуск
ЧАСТЬ 2. ИНСТРУМЕНТЫ
1. Введение
1.1. Структуры данных
1.1.1. Кортеж (tuple)
1.1.2. Список (list)
1.1.3. Словарь (dictionary)
1.1.4. Множество (set)
1.2. Функция
1.3. Полезные встроенные функции
1.3.1. Функция enumerate()
1.3.2. Функция sorted()
1.3.3. Функция zip()
1.4. Класс
1.5. Знакомство с Anaconda
2. IPython и Jupyter Notebook
3. NumPy
3.1. Создание массивов NumPy
3.2. Обращение к элементам массива
3.3. Получение краткой информации о массиве
3.4. Изменение формы массива
3.5. Конкатенация массивов
3.6. Функции математических операций,
знакомство
с правилами транслирования
3.7. Обработка пропусков
3.8. Функция np.linspace()
3.9. Функция np.logspace()
3.10. Функция np.digitize()
3.11. Функция np.searchsortedO
3.12. Функция np.bincount()
3.13. Функция np.apply_along_axis()
3.14. Функция np.insert()
3.15. Функция np.repeat()
3.16. Функция np.unique()
3.17. Функция np.take_along_axis()
3.18. Функция np.array_split()
4. Библиотеки Numba, datatable, bottleneck
для ускорения вычислений
4.1. Numba
4.2. Datatable
4.3. Bottleneck
5. SciPy
6. pandas
6.1. Почему pandas?
6.2. Библиотека pandas построена на NumPy
6.3. pandas работает с табличными данными
6.4. Объекты DataFrame и Series
6.5. Задачи, выполняемые pandas
6.6. Кратко о типах данных
6.7. Представление пропусков
6.8. Какую версию pandas использовать?
6.9. Подробно знакомимся с типами данных
6.9.1. Тип данных integer (тип для целых чисел,
целочисленный тип), 'int64' или 'int32'
6.9.2. Тип данных unsigned integer (тип для
целых чисел без знака),
'uint64' или 'uint32'
6.9.3. Тип данных nullable integer (тип для целых
чисел,
допускающий значения NULL), 'Int64'
6.9.4. Тип данных nullable unsigned integer (тип
для целых чисел
без знака, допускающий значения NULL), 'UInt64'
6.9.5. Тип данных float (тип для чисел с
плавающей точкой), 'float64'
или 'float32'
6.9.6. Тип данных nullable float (тип для чисел с
плавающей точкой,
допускающий значения NULL), 'Float64'
6.9.7. Тип данных boolean (логический тип,
булев тип), 'bool'
6.9.8. Тип данных nullable boolean (логический
тип, допускающий
значения NULL), 'Boolean'
6.9.9. Таблицы типов данных для работы с
числами в pandas
6.9.10. Тип данных object (объектный тип),
'object'
6.9.11. Тип данных Categorical (категориальный
тип), 'category'
6.9.12. Тип данных string (строковый тип), 'string'
6.9.13. Таблица типов данных для работы со
строками
6.10. Чтение данных
6.11. Получение общей информации о
датафрейме
6.12. Изменение настроек вывода с помощью
функции get_options()
6.13. Знакомство с индексаторами [], loc и iloc
6.14. Фильтрация данных
6.14.1. Одно условие
6.14.2. Несколько условий
6.14.3. Несколько условий в одном столбце
6.14.4. Использование метода .query()
6.15. Агрегирование данных
6.15.1. Группировка и агрегирование с помощью
одного столбца
6.15.2. Группировка и агрегирование с помощью
нескольких столбцов..
6.15.3. Группировка с помощью сводных таблиц
6.16. Анализ частот с помощью таблиц
сопряженности
6.17. Выполнение SQL-запросов в pandas
7. Библиотеки визуализации matplotlib,
seaborn и plotly
7.1. Matplotlib
7.2. Seaborn
7.3. Plotly
8. scikit-learn
8.1. Основы работы с классами, строящими
модели предварительной
подготовки данных и модели машинного обучения
8.2. Строим свой первый конвейер моделей
8.3. Разбираемся с дилеммой смещения-
дисперсии и знакомимся
с бутстрепом
8.4. Обработка пропусков с помощью классов
MissingIndicator
и SimpleImputer
8.5. Выполнение дамми-кодирования с
помощью класса OneHotEncoder
и функции get_dummies(), знакомство с
разреженными матрицами
8.6. Автоматическое построение конвейеров
моделей с помощью
класса Pipeline
8.7. Знакомство с классом ColumnTransformer
8.8. Класс FeatureUnion
8.9. Выполнение перекрестной проверки с
помощью функции
cross_val_score(), получение прогнозов
перекрестной проверки с помощью функции
cross_val_predict(), сохранение моделей
перекрестной проверки с помощью функции
cross_validate()
8.10. Виды перекрестной проверки для данных
формата
"один объект - одно наблюдение" (отсутствует ось
времени)
8.10.1. Обычная нестратифицированная ^-
блочная перекрестная
проверка с помощью класса KFold
8.10.2. Обычная стратифицированная ^-блочная
перекрестная проверка с помощью класса
StratifiedKFold
8.10.3. Повторная нестратифицированная ^-
блочная перекрестная
проверка с помощью класса RepeatedKFold
8.10.4. Повторная стратифицированная ^-
блочная перекрестная
проверка с помощью класса RepeatedStratifiedKFold
8.10.5. k-кратное случайное разбиение на
обучающую и тестовую
выборки (перекрестная проверка Монте-Карло)
8.10.6. Перекрестная проверка со случайными
перестановками
при разбиении с помощью класса ShuffleSplit
8.10.7. Стратифицированная перекрестная
проверка
со случайными перестановками при разбиении с
помощью класса StratifiedShuffleSplit
8.10.8. Перекрестная проверка с исключением по
одному
с помощью класса LeaveOneOut
8.10.9. Перекрестная проверка с исключением p
наблюдений
с помощью класса LeavePOut
8.11. Виды перекрестной проверки для данных
формата
"один объект - несколько наблюдений" и
стратифицированных данных (отсутствует ось
времени)
8.11.1. Перекрестная проверка, учитывающая
группы связанных
наблюдений, с помощью классов GroupKFold
8.11.2. Перекрестная проверка, учитывающая
группы связанных
наблюдений с исключением из обучения одной
группы, с помощью класса LeaveOneGroupOut
8.11.3. Перекрестная проверка, учитывающая
группы связанных
наблюдений с исключением из обучения p групп, с
помощью класса LeavePGroupsOut
8.11.4. Перекрестная проверка, учитывающая
группы связанных
наблюдений и распределение классов, с помощью
класса StratifiedGroupKFold
8.11.5. Перекрестная проверка со случайными
перестановками при разбиении и учитывающая
группы связанных наблюдений
с помощью класса GroupShuffleSplit
8.12. Обычный и случайный поиск наилучших
гиперпараметров
по сетке с помощью классов GridSearchCV и
RandomizedSearchCV
8.12.1. Обычный поиск оптимальных значений
гиперпараметров
моделей предварительной подготовки и модели
машинного обучения
8.12.2. Обычный поиск оптимальных значений
гиперпараметров
моделей предварительной подготовки и модели
машинного обучения с добавлением строки
прогресса
8.12.3. Случайный поиск оптимальных значений
гиперпараметров
моделей предварительной подготовки и модели
машинного обучения
8.12.4. Обычный поиск оптимальных значений
гиперпараметров для CatBoost при обработке
категориальных признаков
"как есть" ( заданы индексы категориальных
признаков)
8.12.5. Отбор оптимальной модели
предварительной подготовки
данных в рамках отдельного трансформера
8.12.6. Отбор оптимального метода машинного
обучения среди разных методов машинного
обучения (перебор значений гиперпараметров с
отдельной предобработкой данных
под каждый метод машинного обучения)
8.13. Вложенная перекрестная проверка
8.14. Классы PowerTransformer, KBinsDiscretizer и
FunctionTransformer...
8.15. Написание собственных классов
предварительной подготовки
для применения в конвейере
8.16. Модификация классов библиотеки scikit-
learn для работы
с датафреймами
8.17. Полный цикл построения конвейера
моделей в scikit-learn
8.17.1. Первая задача
8.17.2. Вторая задача
8.18. Калибровка модели
8.18.1. Актуальность калибровки
8.18.2. Функция calibration_curve()
8.18.3. Оценка Брайера
8.18.4. Оценка качества калибровки моделей до
применения
калибратора
8.18.5. Класс CalibratedClassifierCV
8.18.6. Оценка качества калибровки моделей
после применения
калибратора
8.18.7. Оценка качества калибровки моделей
после применения
калибратора с уже обученным классификатором
8.18.8. Калибровка на основе сплайнов
8.19. Полезные классы CountVectorizer и
TfidfVectorizer для работы
с текстом
8.20. Сравнение моделей, полученных в ходе
поиска по сетке,
с помощью статистических тестов
8.20.1. Простое сравнение всех построенных
моделей
8.20.2. Сравнение двух моделей: частотный
подход
8.20.3. Сравнение двух моделей: байесовский
подход
8.20.4. Попарное сравнение всех моделей:
частотный подход
8.20.5. Попарное сравнение всех моделей:
байесовский подход
8.20.6. Итоговые выводы
8.21. Разбиение на обучающую, проверочную и
тестовую выборки
с учетом временной структуры для валидации
временных рядов
8.22. Виды перекрестной проверки для данных
формата
"один объект - одно наблюдение" (присутствует
ось времени)
8.22.1. Перекрестная проверка расширяющимся
окном
8.22.2. Перекрестная проверка скользящим окном
8.22.3. Перерестная проверка
расширяющимся/скользящим
окном с гэпом
8.23. Перекрестная проверка для данных
формата "один объект -
несколько наблюдений" (присутствует ось
времени)
8.24. Многоклассовая классификация: подходы
"один против всех", "один против одного" и "коды,
исправляющие ошибки"
8.24.1. Подход "один против остальных" или
"один против всех"
("one versus rest", "one versus all")
8.24.2. Подход "один против одного" ("one versus
one")
8.24.3. Подход "коды, исправляющие ошибки"
("error-correcting output codes")
Ответы на вопросы с собеседований
ЧАСТЬ 1. НЕМНОГО МАТЕМАТИКИ
1.1. Функция
1.2. Производная
1.3. Дифференцирование сложных функций
1.4. Частная производная
1.5. Градиент
1.6. Функция потерь и градиентный спуск
ЧАСТЬ 2. ИНСТРУМЕНТЫ
1. Введение
1.1. Структуры данных
1.1.1. Кортеж (tuple)
1.1.2. Список (list)
1.1.3. Словарь (dictionary)
1.1.4. Множество (set)
1.2. Функция
1.3. Полезные встроенные функции
1.3.1. Функция enumerate()
1.3.2. Функция sorted()
1.3.3. Функция zip()
1.4. Класс
1.5. Знакомство с Anaconda
2. IPython и Jupyter Notebook
3. NumPy
3.1. Создание массивов NumPy
3.2. Обращение к элементам массива
3.3. Получение краткой информации о массиве
3.4. Изменение формы массива
3.5. Конкатенация массивов
3.6. Функции математических операций,
знакомство
с правилами транслирования
3.7. Обработка пропусков
3.8. Функция np.linspace()
3.9. Функция np.logspace()
3.10. Функция np.digitize()
3.11. Функция np.searchsortedO
3.12. Функция np.bincount()
3.13. Функция np.apply_along_axis()
3.14. Функция np.insert()
3.15. Функция np.repeat()
3.16. Функция np.unique()
3.17. Функция np.take_along_axis()
3.18. Функция np.array_split()
4. Библиотеки Numba, datatable, bottleneck
для ускорения вычислений
4.1. Numba
4.2. Datatable
4.3. Bottleneck
5. SciPy
6. pandas
6.1. Почему pandas?
6.2. Библиотека pandas построена на NumPy
6.3. pandas работает с табличными данными
6.4. Объекты DataFrame и Series
6.5. Задачи, выполняемые pandas
6.6. Кратко о типах данных
6.7. Представление пропусков
6.8. Какую версию pandas использовать?
6.9. Подробно знакомимся с типами данных
6.9.1. Тип данных integer (тип для целых чисел,
целочисленный тип), 'int64' или 'int32'
6.9.2. Тип данных unsigned integer (тип для
целых чисел без знака),
'uint64' или 'uint32'
6.9.3. Тип данных nullable integer (тип для целых
чисел,
допускающий значения NULL), 'Int64'
6.9.4. Тип данных nullable unsigned integer (тип
для целых чисел
без знака, допускающий значения NULL), 'UInt64'
6.9.5. Тип данных float (тип для чисел с
плавающей точкой), 'float64'
или 'float32'
6.9.6. Тип данных nullable float (тип для чисел с
плавающей точкой,
допускающий значения NULL), 'Float64'
6.9.7. Тип данных boolean (логический тип,
булев тип), 'bool'
6.9.8. Тип данных nullable boolean (логический
тип, допускающий
значения NULL), 'Boolean'
6.9.9. Таблицы типов данных для работы с
числами в pandas
6.9.10. Тип данных object (объектный тип),
'object'
6.9.11. Тип данных Categorical (категориальный
тип), 'category'
6.9.12. Тип данных string (строковый тип), 'string'
6.9.13. Таблица типов данных для работы со
строками
6.10. Чтение данных
6.11. Получение общей информации о
датафрейме
6.12. Изменение настроек вывода с помощью
функции get_options()
6.13. Знакомство с индексаторами [], loc и iloc
6.14. Фильтрация данных
6.14.1. Одно условие
6.14.2. Несколько условий
6.14.3. Несколько условий в одном столбце
6.14.4. Использование метода .query()
6.15. Агрегирование данных
6.15.1. Группировка и агрегирование с помощью
одного столбца
6.15.2. Группировка и агрегирование с помощью
нескольких столбцов..
6.15.3. Группировка с помощью сводных таблиц
6.16. Анализ частот с помощью таблиц
сопряженности
6.17. Выполнение SQL-запросов в pandas
7. Библиотеки визуализации matplotlib,
seaborn и plotly
7.1. Matplotlib
7.2. Seaborn
7.3. Plotly
8. scikit-learn
8.1. Основы работы с классами, строящими
модели предварительной
подготовки данных и модели машинного обучения
8.2. Строим свой первый конвейер моделей
8.3. Разбираемся с дилеммой смещения-
дисперсии и знакомимся
с бутстрепом
8.4. Обработка пропусков с помощью классов
MissingIndicator
и SimpleImputer
8.5. Выполнение дамми-кодирования с
помощью класса OneHotEncoder
и функции get_dummies(), знакомство с
разреженными матрицами
8.6. Автоматическое построение конвейеров
моделей с помощью
класса Pipeline
8.7. Знакомство с классом ColumnTransformer
8.8. Класс FeatureUnion
8.9. Выполнение перекрестной проверки с
помощью функции
cross_val_score(), получение прогнозов
перекрестной проверки с помощью функции
cross_val_predict(), сохранение моделей
перекрестной проверки с помощью функции
cross_validate()
8.10. Виды перекрестной проверки для данных
формата
"один объект - одно наблюдение" (отсутствует ось
времени)
8.10.1. Обычная нестратифицированная ^-
блочная перекрестная
проверка с помощью класса KFold
8.10.2. Обычная стратифицированная ^-блочная
перекрестная проверка с помощью класса
StratifiedKFold
8.10.3. Повторная нестратифицированная ^-
блочная перекрестная
проверка с помощью класса RepeatedKFold
8.10.4. Повторная стратифицированная ^-
блочная перекрестная
проверка с помощью класса RepeatedStratifiedKFold
8.10.5. k-кратное случайное разбиение на
обучающую и тестовую
выборки (перекрестная проверка Монте-Карло)
8.10.6. Перекрестная проверка со случайными
перестановками
при разбиении с помощью класса ShuffleSplit
8.10.7. Стратифицированная перекрестная
проверка
со случайными перестановками при разбиении с
помощью класса StratifiedShuffleSplit
8.10.8. Перекрестная проверка с исключением по
одному
с помощью класса LeaveOneOut
8.10.9. Перекрестная проверка с исключением p
наблюдений
с помощью класса LeavePOut
8.11. Виды перекрестной проверки для данных
формата
"один объект - несколько наблюдений" и
стратифицированных данных (отсутствует ось
времени)
8.11.1. Перекрестная проверка, учитывающая
группы связанных
наблюдений, с помощью классов GroupKFold
8.11.2. Перекрестная проверка, учитывающая
группы связанных
наблюдений с исключением из обучения одной
группы, с помощью класса LeaveOneGroupOut
8.11.3. Перекрестная проверка, учитывающая
группы связанных
наблюдений с исключением из обучения p групп, с
помощью класса LeavePGroupsOut
8.11.4. Перекрестная проверка, учитывающая
группы связанных
наблюдений и распределение классов, с помощью
класса StratifiedGroupKFold
8.11.5. Перекрестная проверка со случайными
перестановками при разбиении и учитывающая
группы связанных наблюдений
с помощью класса GroupShuffleSplit
8.12. Обычный и случайный поиск наилучших
гиперпараметров
по сетке с помощью классов GridSearchCV и
RandomizedSearchCV
8.12.1. Обычный поиск оптимальных значений
гиперпараметров
моделей предварительной подготовки и модели
машинного обучения
8.12.2. Обычный поиск оптимальных значений
гиперпараметров
моделей предварительной подготовки и модели
машинного обучения с добавлением строки
прогресса
8.12.3. Случайный поиск оптимальных значений
гиперпараметров
моделей предварительной подготовки и модели
машинного обучения
8.12.4. Обычный поиск оптимальных значений
гиперпараметров для CatBoost при обработке
категориальных признаков
"как есть" ( заданы индексы категориальных
признаков)
8.12.5. Отбор оптимальной модели
предварительной подготовки
данных в рамках отдельного трансформера
8.12.6. Отбор оптимального метода машинного
обучения среди разных методов машинного
обучения (перебор значений гиперпараметров с
отдельной предобработкой данных
под каждый метод машинного обучения)
8.13. Вложенная перекрестная проверка
8.14. Классы PowerTransformer, KBinsDiscretizer и
FunctionTransformer...
8.15. Написание собственных классов
предварительной подготовки
для применения в конвейере
8.16. Модификация классов библиотеки scikit-
learn для работы
с датафреймами
8.17. Полный цикл построения конвейера
моделей в scikit-learn
8.17.1. Первая задача
8.17.2. Вторая задача
8.18. Калибровка модели
8.18.1. Актуальность калибровки
8.18.2. Функция calibration_curve()
8.18.3. Оценка Брайера
8.18.4. Оценка качества калибровки моделей до
применения
калибратора
8.18.5. Класс CalibratedClassifierCV
8.18.6. Оценка качества калибровки моделей
после применения
калибратора
8.18.7. Оценка качества калибровки моделей
после применения
калибратора с уже обученным классификатором
8.18.8. Калибровка на основе сплайнов
8.19. Полезные классы CountVectorizer и
TfidfVectorizer для работы
с текстом
8.20. Сравнение моделей, полученных в ходе
поиска по сетке,
с помощью статистических тестов
8.20.1. Простое сравнение всех построенных
моделей
8.20.2. Сравнение двух моделей: частотный
подход
8.20.3. Сравнение двух моделей: байесовский
подход
8.20.4. Попарное сравнение всех моделей:
частотный подход
8.20.5. Попарное сравнение всех моделей:
байесовский подход
8.20.6. Итоговые выводы
8.21. Разбиение на обучающую, проверочную и
тестовую выборки
с учетом временной структуры для валидации
временных рядов
8.22. Виды перекрестной проверки для данных
формата
"один объект - одно наблюдение" (присутствует
ось времени)
8.22.1. Перекрестная проверка расширяющимся
окном
8.22.2. Перекрестная проверка скользящим окном
8.22.3. Перерестная проверка
расширяющимся/скользящим
окном с гэпом
8.23. Перекрестная проверка для данных
формата "один объект -
несколько наблюдений" (присутствует ось
времени)
8.24. Многоклассовая классификация: подходы
"один против всех", "один против одного" и "коды,
исправляющие ошибки"
8.24.1. Подход "один против остальных" или
"один против всех"
("one versus rest", "one versus all")
8.24.2. Подход "один против одного" ("one versus
one")
8.24.3. Подход "коды, исправляющие ошибки"
("error-correcting output codes")
Ответы на вопросы с собеседований
Отзывы
Вопросы
Поделитесь своим мнением об этом товаре с другими покупателями — будьте первыми!
Дарим бонусы за отзывы!
За какие отзывы можно получить бонусы?
- За уникальные, информативные отзывы, прошедшие модерацию
Как получить больше бонусов за отзыв?
- Публикуйте фото или видео к отзыву
- Пишите отзывы на товары с меткой "Бонусы за отзыв"
Задайте вопрос, чтобы узнать больше о товаре
Если вы обнаружили ошибку в описании товара «Предварительная подготовка данных в Python. Том 1. Инструменты и валидация» (авторы: Груздев Артем Владимирович), то выделите её мышкой и нажмите Ctrl+Enter. Спасибо, что помогаете нам стать лучше!