Смотрите видео ниже, чтобы узнать, как установить наш сайт в качестве веб-приложения на домашнем экране.
Примечание: Эта возможность может быть недоступна в некоторых браузерах.
Внимание, Гость! Для скачивания данного ресурса, тебе необходимо поставить «Like» на данный ресурс.
Вы используете устаревший браузер. Этот и другие сайты могут отображаться в нём некорректно. Вам необходимо обновить браузер или попробовать использовать другой.
AURFUN
Без поддержки
Парсинг веб-сайтов с помощью Python и NoSQL / Scrape-Websites-with-Python-FastAPI-Celery-NoSQL
Регистрация в AstraDB — высокопроизводительный и масштабируемый сервис баз данных от DataStax. AstraDB — это NoSQL-база данных на базе Cassandra. Cassandra используется Netflix, Discord, Apple и многими другими компаниями для обработки невероятных объемов данных.
Документация Selenium— автоматизированный инструмент для просмотра веб-страниц, позволяющий:
Выполняйте все действия в веб-браузере с помощью кода.
Загружает веб-сайты с большим количеством JavaScript.
Может выполнять стандартные действия с пользователем, такие как клики, отправка форм, вход в систему и т. д.
Запросы HTML- документов — мы будем использовать это для анализа HTML-документа, извлеченного из Selenium.
Документация Celery : Celery предоставляет рабочие процессы, которые позволят нам планировать время сбора данных с веб-сайтов. В качестве очереди задач мы будем использовать Redis .
Документация FastAPI — это фреймворк для веб-приложений, позволяющий отображать и отслеживать результаты веб-скрейпинга из любого места.
Этот сериал состоит из 4 частей:
Парсинг веб - сайтов: как собирать и анализировать данные практически с любого веб-сайта с помощью Selenium и Requests HTML.
Модели данных показывают, как хранить и проверять данные с помощью cassandra-driver, pydantic, и AstraDB.
Worker & Scheduling: как планировать периодические задачи (например, сбор данных) в интеграции с Redis и AstraDB.
Презентация: Как объединить описанные выше шаги в надежное веб-приложение.
Настройте свою систему.
Ниже приведён контрольный список для проверки правильности настройки вашей системы перед началом работы с этим курсом. Все руководства и инструкции по настройке находятся в каталоге setup этого репозитория.
AstraDBsign up - highly perfomant and scalable database service by DataStax. AstraDB is a Cassandra NoSQL Database. Cassandra is used by Netflix, Discord, Apple, and many others to handle astonding amounts of data.
Seleniumdocs - an automated web browsing experience that allows:
Run all web-browser actions through code
Loads JavaScript heavy websites
Can perform standard user interaction like clicks, form submits, logins, etc.
Requests HTMLdocs - we're going to use this to parse an HTML document extracted from Selenium
Celerydocs - Celery providers worker processes that will allow us to schedule when we need to scrape websites. We'll be using redis as our task queue.
FastAPIdocs - as a web application framework to Display and monitor web scraping results from anywhere
This series is broken up into 4 parts:
Scraping How to scrape and parse data from nearly any website with Selenium & Requests HTML.
Data models how to store and validate data with cassandra-driver, pydantic, and AstraDB.
Worker & Scheduling how to schedule periodic tasks (ie scraping) integrated with Redis & AstraDB
Presentation How to combine the above steps in as robust web application service
Setup your system.
Below is a preflight checklist to ensure you system is fully setup to work with this course. All guides and setup can be found in the setup directory of this repo.
На данном сайте используются файлы cookie, чтобы персонализировать контент и сохранить Ваш вход в систему, если Вы зарегистрируетесь.
Продолжая использовать этот сайт, Вы соглашаетесь на использование наших файлов cookie.