Расширение для ручного парсинга
Случается, что информации о товаре нет в нашей библиотеке, но она есть на каком-то сайте. При этом вручную копировать её — долго и утомительно. Мы сделали расширение для браузера, которое помогает в такой ситуации.
Принцип работы
Пользователь устанавливает расширение. Когда пользователь с установленным активным расширением открывает страницу сайта, который система может распарсить, HTML код страницы отправляется на сервер catalog.app. Сервер собирает информацию о ценах, наличии, характеристиках, описаниях, изображениях товаров со страницы.
Собранные данные попадают в общую (публичную) или приватную библиотеку — в зависимости от выбранного в настройках расширения назначения данных.
Решаемые задачи
- Такой подход позволяет получить информацию даже со страниц, закрытых авторизацией или жесткой капчей.
- Можно получать информацию о новинках, не дожидаясь, пока её найдет автоматический парсер.
- Если сайт ещё не поддерживается, расширение собирает образцы страниц, по которым система автоматически создаёт новый парсер.
Установка
- Скачайте расширение.
- Распакуйте архив в какую-либо папку на вашем компьютере.
- Откройте браузер (на движке Chromium) и перейдите на страницу «Управление расширениями» (Menu → Extensions → Manage Extensions).
- Включите переключатель «Режим разработчика» (Developer mode).
- Нажмите «Загрузить распакованное» (Load unpacked) и укажите путь к папке с расширением.
Настройка
Откройте настройки расширения через контекстное меню на его значке. Страница настроек разделена на несколько секций.
Профиль
Показывает данные авторизованного пользователя. Если вход не выполнен, отображается баннер с пояснением: неавторизованные пользователи тоже могут пользоваться расширением — собранные данные попадают в общую публичную библиотеку, доступную всем.
Учётные данные
Введите логин и пароль от вашего аккаунта в catalog.app и нажмите «Log in». Расширение проверит данные на сервере и, при успехе, сохранит их. Кнопка «Log out» очищает сохранённые данные.
Авторизация не обязательна — без неё расширение работает в режиме сбора данных в общую публичную библиотеку.
Назначение данных
- Публичная библиотека — собранные данные доступны всем пользователям системы. Подходит, если вы не авторизованы или хотите делиться данными со всеми.
- Приватная библиотека — данные видны только вашей компании. Требует входа в аккаунт.
Если вы не авторизованы, выбор приватной библиотеки недоступен; настройка автоматически переключается на публичную.
Дополнительно
- Debug mode — переключает расширение на локальный API (
http://localhost/manualparsing). Используется только для разработки.
Использование
Откройте поддерживаемый системой сайт. На значке расширения появится цветной индикатор:
- Зелёный — страница успешно распарсена, данные сохранены.
- Синий — страница сохранена как образец для создания нового парсера.
- Оранжевый — обработка в процессе.
- Красный — ошибка обработки.
Нажмите на значок расширения, чтобы открыть всплывающее окно с подробностями: список найденных товаров с ценами и изображениями, либо статус обучения для сайтов без готового парсера.
Новые сайты: автоматическое создание парсеров
Если вы открываете сайт, для которого парсер ещё не создан, расширение начинает собирать образцы страниц. Во всплывающем окне вы увидите счётчик прогресса — например, «2 из 5 образцов собрано».
Когда нужное количество образцов собрано, система автоматически генерирует парсер с помощью ИИ. Через несколько минут парсер будет готов, и страницы того же сайта начнут обрабатываться как обычно.
Чтобы помочь системе быстрее набрать образцы, нажмите кнопку «Submit sample» на странице с товарами — это вручную отправит текущую страницу как новый образец.
Сообщить о проблеме
Если парсер работает неправильно (нашёл не все товары, неверные цены, испорченные изображения), нажмите ссылку «Report an issue» во всплывающем окне расширения.
Опишите проблему в открывшемся поле и нажмите «Submit». Текущая страница автоматически прикрепится к отчёту как новый образец, и система перегенерирует парсер с учётом вашего отзыва.