Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета
Митчелл Райан
Код товара: 2433834
(0 оценок)Оценить
ОтзывНаписать отзыв
ВопросЗадать вопрос
1 / 3
PDF
1 / 3
Издательство:
Оригинальное название:
Web Scraping with Python. Collecting Data From the Modern Web
Отмечено тегами
Описание
Характеристики
Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета и любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.
Идеально подходящая для программистов, специалистов по безопасности и веб-адмнппстраторов, знакомых с языком Python, эта книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется и более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.
Идеально подходящая для программистов, специалистов по безопасности и веб-адмнппстраторов, знакомых с языком Python, эта книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется и более сложные темы, такие как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.
код в Майшоп
2433834
возрастная категория
18+ (нет данных)
количество томов
1
количество страниц
280 стр.
размеры
205x142x14 мм
страна изготовления
Россия
тип крепления
клеевое (КБС - клеевое бесшовное соединение)
наличие иллюстраций
рисунки
тип иллюстраций
чёрно-белые
формат
60x88 1/16
ISBN
978-5-97060-223-2
тип бумаги
офсетная (60-220 г/м2)
цвет
Белый
тираж
200
стандарт
20 шт.
вес
295 г
язык
русский
переплёт
Мягкая обложка
Содержание
Предисловие
Вступление
ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ
Глава 1. Ваш первый скрапер
Соединение с Интернетом
Введение в BeautifulSoup
Установка BeautifulSoup
Запуск BeautifulSoup
Как обеспечить надежный скрапинг
Глава 2. Продвинутый парсинг HTML
Вам не всегда нужен молоток
Еще одно применение BeautifulSoup
find() и findAll()..
Другие объекты BeautifulSoup
Навигация по дереву синтаксического разбора
Работа с дочерними элементами и элементами-
потомками
Работа с одноуровневыми элементами
Работа с родительскими элементами
Регулярные выражения
Регулярные выражения и BeautifulSoup
Работа с атрибутами
Лямбда-выражения
За рамками BeautifulSoup
Глава 3. Запуск краулера
Обход отдельного домена
Краулинг всего сайта
Сбор данных по всему сайту
Краулинг Интернета
Краулинг с помощью Scrapy
Глава 4. Использование API
Как работают API
Общепринятые соглашения
Методы
Аутентификация
Ответы
Вызовы API
Echo Nest
Несколько примеров
Twitter
Приступаем к работе
Несколько примеров
Google API
Приступаем к работе
Несколько примеров
Парсинг J SON-данных
Возвращаем все это домой
Подробнее о применении API
Глава 5. Хранение данных
Медиафайлы
Сохранение данных в формате CSV
MySQL
Установка MySQL
Некоторые основные команды
Интеграция с Python
Методы работы с базами данных и эффективная
практика
"Шесть шагов" в MySQL
Электронная почта
Глава 6. Чтение документов
Кодировка документа
Текст
Кодировка текста и глобальный Интернет
CSV
Чтение CSV-файлов
PDF
Microsoft Word и .docx
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ
Глава 7. Очистка данных
Очистка данных на этапе создания кода
Нормализация данных
Очистка данных постфактум
OpenRefine
Глава 8. Чтение и запись естественных языков
Аннотирование данных
Марковские модели
Шесть шагов Википедии: заключительная часть
Natural Language Toolkit
Установка и настройка
Статистический анализ с помощью NLTK
Лексикографический анализ с помощью NLTK
Дополнительные ресурсы
Глава 9. Краулинг сайтов, использующих веб-
формы
Библиотека requests
Отправка простой формы
Радиокнопки, флажки и другие элементы ввода
данных
Отправка файлов и изображений
Работа с логинами и cookies
Базовая НТТР-аутентификация
Другие проблемы при работе с формами
Глава 10. Скрапинг JavaScript-кода
Краткое введение в JavaScript
Распространенные библиотеки JavaScript
Ajax и динамический HTML
Выполнение JavaScript в Python с помощью
библиотеки
Selenium
Обработка редиректов
Глава 11. Обработка изображений и распознавание
текста
Обзор библиотек
Pillow
Tesseract
NumPy
Обработка хорошо отформатированного текста
Скрапинг текста с изображений, размещенных на
веб-сайтах
Чтение САРТСНА и обучение Tesseract
Обучение Tesseract
Извлечение САРТСЫА и отправка результатов
распознавания
Глава 12. Обход ловушек в ходе скрапинга
Обратите внимание на этический аспект
Учимся выглядеть как человек
Настройте заголовки
Обработка cookies
Время решает все
Общие функции безопасности, используемые веб-
формами
Значения полей скрытого ввода
Обходим "горшочки с медом"
Проверяем скрапер на "человечность"
Глава 13. Тестирование вашего сайта с помощью
скраперов
Введение в тестирование
Что такое модульные тесты?
Питоновский модуль unittest
Тестирование Википедии
Тестирование с помощью Selenium
Взаимодействие с сайтом...
Unittest или Selenium?
Глава 14. Скрапинг с помощью удаленных
серверов
Зачем использовать удаленные серверы?
Как избежать блокировки IP-адреса
Переносимость и расширяемость
Тог
PySocks
Удаленный хостинг
Запуск с аккаунта веб-хостинга
Запуск из облака
Дополнительные ресурсы
Заглянем в будущее
Приложение А. Кратко о том, как работает Python
Установка и "Hello, World!"
Приложение В. Кратко о том, как работает
Интернет
Приложение С. Правовые и этические аспекты
веб-скрапинга
Товарные знаки, авторские права, патенты, о
боже!
Авторское право
Посягательство на движимое имущество
Закон о компьютерном мошенничестве и
злоупотреблении
robots.txt и Пользовательское соглашение
Три нашумевших случая в практике
веб-скранинга
eBay против Bidder's Edge и посягательство на
движимое
имущество
США против Орнхаймера и Закон о компьютерном
мошенничестве и злоупотреблении
Филд против Google: авторское право и robots.txt
Об авторе
Колофон
Предметный указатель
Вступление
ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ
Глава 1. Ваш первый скрапер
Соединение с Интернетом
Введение в BeautifulSoup
Установка BeautifulSoup
Запуск BeautifulSoup
Как обеспечить надежный скрапинг
Глава 2. Продвинутый парсинг HTML
Вам не всегда нужен молоток
Еще одно применение BeautifulSoup
find() и findAll()..
Другие объекты BeautifulSoup
Навигация по дереву синтаксического разбора
Работа с дочерними элементами и элементами-
потомками
Работа с одноуровневыми элементами
Работа с родительскими элементами
Регулярные выражения
Регулярные выражения и BeautifulSoup
Работа с атрибутами
Лямбда-выражения
За рамками BeautifulSoup
Глава 3. Запуск краулера
Обход отдельного домена
Краулинг всего сайта
Сбор данных по всему сайту
Краулинг Интернета
Краулинг с помощью Scrapy
Глава 4. Использование API
Как работают API
Общепринятые соглашения
Методы
Аутентификация
Ответы
Вызовы API
Echo Nest
Несколько примеров
Приступаем к работе
Несколько примеров
Google API
Приступаем к работе
Несколько примеров
Парсинг J SON-данных
Возвращаем все это домой
Подробнее о применении API
Глава 5. Хранение данных
Медиафайлы
Сохранение данных в формате CSV
MySQL
Установка MySQL
Некоторые основные команды
Интеграция с Python
Методы работы с базами данных и эффективная
практика
"Шесть шагов" в MySQL
Электронная почта
Глава 6. Чтение документов
Кодировка документа
Текст
Кодировка текста и глобальный Интернет
CSV
Чтение CSV-файлов
Microsoft Word и .docx
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ
Глава 7. Очистка данных
Очистка данных на этапе создания кода
Нормализация данных
Очистка данных постфактум
OpenRefine
Глава 8. Чтение и запись естественных языков
Аннотирование данных
Марковские модели
Шесть шагов Википедии: заключительная часть
Natural Language Toolkit
Установка и настройка
Статистический анализ с помощью NLTK
Лексикографический анализ с помощью NLTK
Дополнительные ресурсы
Глава 9. Краулинг сайтов, использующих веб-
формы
Библиотека requests
Отправка простой формы
Радиокнопки, флажки и другие элементы ввода
данных
Отправка файлов и изображений
Работа с логинами и cookies
Базовая НТТР-аутентификация
Другие проблемы при работе с формами
Глава 10. Скрапинг JavaScript-кода
Краткое введение в JavaScript
Распространенные библиотеки JavaScript
Ajax и динамический HTML
Выполнение JavaScript в Python с помощью
библиотеки
Selenium
Обработка редиректов
Глава 11. Обработка изображений и распознавание
текста
Обзор библиотек
Pillow
Tesseract
NumPy
Обработка хорошо отформатированного текста
Скрапинг текста с изображений, размещенных на
веб-сайтах
Чтение САРТСНА и обучение Tesseract
Обучение Tesseract
Извлечение САРТСЫА и отправка результатов
распознавания
Глава 12. Обход ловушек в ходе скрапинга
Обратите внимание на этический аспект
Учимся выглядеть как человек
Настройте заголовки
Обработка cookies
Время решает все
Общие функции безопасности, используемые веб-
формами
Значения полей скрытого ввода
Обходим "горшочки с медом"
Проверяем скрапер на "человечность"
Глава 13. Тестирование вашего сайта с помощью
скраперов
Введение в тестирование
Что такое модульные тесты?
Питоновский модуль unittest
Тестирование Википедии
Тестирование с помощью Selenium
Взаимодействие с сайтом...
Unittest или Selenium?
Глава 14. Скрапинг с помощью удаленных
серверов
Зачем использовать удаленные серверы?
Как избежать блокировки IP-адреса
Переносимость и расширяемость
Тог
PySocks
Удаленный хостинг
Запуск с аккаунта веб-хостинга
Запуск из облака
Дополнительные ресурсы
Заглянем в будущее
Приложение А. Кратко о том, как работает Python
Установка и "Hello, World!"
Приложение В. Кратко о том, как работает
Интернет
Приложение С. Правовые и этические аспекты
веб-скрапинга
Товарные знаки, авторские права, патенты, о
боже!
Авторское право
Посягательство на движимое имущество
Закон о компьютерном мошенничестве и
злоупотреблении
robots.txt и Пользовательское соглашение
Три нашумевших случая в практике
веб-скранинга
eBay против Bidder's Edge и посягательство на
движимое
имущество
США против Орнхаймера и Закон о компьютерном
мошенничестве и злоупотреблении
Филд против Google: авторское право и robots.txt
Об авторе
Колофон
Предметный указатель
Отзывы
Вопросы
Поделитесь своим мнением об этом товаре с другими покупателями — будьте первыми!
Дарим бонусы за отзывы!
За какие отзывы можно получить бонусы?
- За уникальные, информативные отзывы, прошедшие модерацию
Как получить больше бонусов за отзыв?
- Публикуйте фото или видео к отзыву
- Пишите отзывы на товары с меткой "Бонусы за отзыв"
Задайте вопрос, чтобы узнать больше о товаре
Если вы обнаружили ошибку в описании товара «Скрапинг веб-сайтов с помощью Python. Сбор данных из современного интернета» (авторы: Митчелл Райан), то выделите её мышкой и нажмите Ctrl+Enter. Спасибо, что помогаете нам стать лучше!