• Внимание, Guest! Для скачивания данного ресурса, тебе необходимо поставить «Like» на данный ресурс.

Welcome to AUR PROJECT!

Our community follows a simple rule — new members can join only with an invite key generated by an existing member.
Follow our Telegram channel to get your free invite key and become part of our world!

Join Telegram
Парсинг веб-сайтов с помощью Python и NoSQL / Scrape-Websites-with-Python-FastAPI-Celery-NoSQL

Not supported Парсинг веб-сайтов с помощью Python и NoSQL / Scrape-Websites-with-Python-FastAPI-Celery-NoSQL 1

No permission to download
VirusTotal scan
VirusTotal
Узнайте, как парсить веб-сайты с помощью Python, Selenium, Requests HTML, Celery, FastAPI и NoSQL.

Вот для чего используется каждый инструмент:

  • Загрузка Python 3.9 — программирование логики.
  • Регистрация в AstraDB — высокопроизводительный и масштабируемый сервис баз данных от DataStax. AstraDB — это NoSQL-база данных на базе Cassandra. Cassandra используется Netflix, Discord, Apple и многими другими компаниями для обработки невероятных объемов данных.
  • Документация Selenium— автоматизированный инструмент для просмотра веб-страниц, позволяющий:
    • Выполняйте все действия в веб-браузере с помощью кода.
    • Загружает веб-сайты с большим количеством JavaScript.
    • Может выполнять стандартные действия с пользователем, такие как клики, отправка форм, вход в систему и т. д.
  • Запросы HTML- документов — мы будем использовать это для анализа HTML-документа, извлеченного из Selenium.
  • Документация Celery : Celery предоставляет рабочие процессы, которые позволят нам планировать время сбора данных с веб-сайтов. В качестве очереди задач мы будем использовать Redis .
  • Документация FastAPI — это фреймворк для веб-приложений, позволяющий отображать и отслеживать результаты веб-скрейпинга из любого места.
Этот сериал состоит из 4 частей:

  • Парсинг веб - сайтов: как собирать и анализировать данные практически с любого веб-сайта с помощью Selenium и Requests HTML.
  • Модели данных показывают, как хранить и проверять данные с помощью cassandra-driver, pydantic, и AstraDB.
  • Worker & Scheduling: как планировать периодические задачи (например, сбор данных) в интеграции с Redis и AstraDB.
  • Презентация: Как объединить описанные выше шаги в надежное веб-приложение.

Настройте свою систему.​

Ниже приведён контрольный список для проверки правильности настройки вашей системы перед началом работы с этим курсом. Все руководства и инструкции по настройке находятся в каталоге setup этого репозитория.

Контрольный список перед полетом​

  • Установка Selenium и Chromedriver - руководство по настройке
  • Установка Redis - руководство по настройке
  • Создайте виртуальное окружение и установите зависимости
  • Создайте учетную запись в DataStax
  • Создайте свою первую базу данных AstraDB и получите учетные данные API
  • Используйте cassandra-driver для проверки вашего соединения с AstraD






    • Learn how to scrape websites with Python, Selenium, Requests HTML, Celery, FastAPI, & NoSQL.

      Here's what each tool is used for:
      • Python 3.9 download - programming the logic.
      • AstraDB sign up - highly perfomant and scalable database service by DataStax. AstraDB is a Cassandra NoSQL Database. Cassandra is used by Netflix, Discord, Apple, and many others to handle astonding amounts of data.
      • Selenium docs - an automated web browsing experience that allows:
        • Run all web-browser actions through code
        • Loads JavaScript heavy websites
        • Can perform standard user interaction like clicks, form submits, logins, etc.
      • Requests HTML docs - we're going to use this to parse an HTML document extracted from Selenium
      • Celery docs - Celery providers worker processes that will allow us to schedule when we need to scrape websites. We'll be using redis as our task queue.
      • FastAPI docs - as a web application framework to Display and monitor web scraping results from anywhere
    • This series is broken up into 4 parts:
      • Scraping How to scrape and parse data from nearly any website with Selenium & Requests HTML.
      • Data models how to store and validate data with cassandra-driver, pydantic, and AstraDB.
      • Worker & Scheduling how to schedule periodic tasks (ie scraping) integrated with Redis & AstraDB
      • Presentation How to combine the above steps in as robust web application service
    • Setup your system.​

      Below is a preflight checklist to ensure you system is fully setup to work with this course. All guides and setup can be found in the setup directory of this repo.

      Preflight checklist​

      • Install Selenium & Chromedriver - setup guide
      • Install Redis - setup guide
      • Create a virtual environment & install dependencies
      • Setup an account with DataStax
      • Create your first AstraDB and get API credentials
      • Use cassandra-driver to verify your connection to AstraDB
    [*]




Author
Zenettany
Downloads
0
Views
15
First release
Last update

Ratings

0.00 star(s) 0 ratings

More resources from Zenettany

280
1,123
476
gromova
Back
Top