Расширение для ручного парсинга

Случается, что информации о товаре нет в нашей библиотеке, но она есть на каком-то сайте. При этом вручную копировать её — долго и утомительно. Мы сделали расширение для браузера, которое помогает в такой ситуации.

Скачать расширение (ZIP)

Принцип работы

Пользователь устанавливает расширение. Когда пользователь с установленным активным расширением открывает страницу сайта, который система может распарсить, HTML код страницы отправляется на сервер catalog.app. Сервер собирает информацию о ценах, наличии, характеристиках, описаниях, изображениях товаров со страницы.

Собранные данные попадают в общую (публичную) или приватную библиотеку — в зависимости от выбранного в настройках расширения назначения данных.

Решаемые задачи

  • Такой подход позволяет получить информацию даже со страниц, закрытых авторизацией или жесткой капчей.
  • Можно получать информацию о новинках, не дожидаясь, пока её найдет автоматический парсер.
  • Если сайт ещё не поддерживается, расширение собирает образцы страниц, по которым система автоматически создаёт новый парсер.

Установка

  1. Скачайте расширение.
  2. Распакуйте архив в какую-либо папку на вашем компьютере.
  3. Откройте браузер (на движке Chromium) и перейдите на страницу «Управление расширениями» (Menu → Extensions → Manage Extensions).
  4. Включите переключатель «Режим разработчика» (Developer mode).
  5. Нажмите «Загрузить распакованное» (Load unpacked) и укажите путь к папке с расширением.

Настройка

Откройте настройки расширения через контекстное меню на его значке. Страница настроек разделена на несколько секций.

Профиль

Показывает данные авторизованного пользователя. Если вход не выполнен, отображается баннер с пояснением: неавторизованные пользователи тоже могут пользоваться расширением — собранные данные попадают в общую публичную библиотеку, доступную всем.

Учётные данные

Введите логин и пароль от вашего аккаунта в catalog.app и нажмите «Log in». Расширение проверит данные на сервере и, при успехе, сохранит их. Кнопка «Log out» очищает сохранённые данные.

Авторизация не обязательна — без неё расширение работает в режиме сбора данных в общую публичную библиотеку.

Назначение данных

  • Публичная библиотека — собранные данные доступны всем пользователям системы. Подходит, если вы не авторизованы или хотите делиться данными со всеми.
  • Приватная библиотека — данные видны только вашей компании. Требует входа в аккаунт.

Если вы не авторизованы, выбор приватной библиотеки недоступен; настройка автоматически переключается на публичную.

Дополнительно

  • Debug mode — переключает расширение на локальный API (http://localhost/manualparsing). Используется только для разработки.

Использование

Откройте поддерживаемый системой сайт. На значке расширения появится цветной индикатор:

  • Зелёный — страница успешно распарсена, данные сохранены.
  • Синий — страница сохранена как образец для создания нового парсера.
  • Оранжевый — обработка в процессе.
  • Красный — ошибка обработки.

Нажмите на значок расширения, чтобы открыть всплывающее окно с подробностями: список найденных товаров с ценами и изображениями, либо статус обучения для сайтов без готового парсера.

Новые сайты: автоматическое создание парсеров

Если вы открываете сайт, для которого парсер ещё не создан, расширение начинает собирать образцы страниц. Во всплывающем окне вы увидите счётчик прогресса — например, «2 из 5 образцов собрано».

Когда нужное количество образцов собрано, система автоматически генерирует парсер с помощью ИИ. Через несколько минут парсер будет готов, и страницы того же сайта начнут обрабатываться как обычно.

Чтобы помочь системе быстрее набрать образцы, нажмите кнопку «Submit sample» на странице с товарами — это вручную отправит текущую страницу как новый образец.

Сообщить о проблеме

Если парсер работает неправильно (нашёл не все товары, неверные цены, испорченные изображения), нажмите ссылку «Report an issue» во всплывающем окне расширения.

Опишите проблему в открывшемся поле и нажмите «Submit». Текущая страница автоматически прикрепится к отчёту как новый образец, и система перегенерирует парсер с учётом вашего отзыва.