Вопросы по теме 'screen-scraping'

Библиотека селекторов PHP CSS?
Есть ли класс/библиотека PHP, которые позволили бы мне запрашивать документ XHTML с помощью селекторов CSS? Мне нужно очистить некоторые страницы для данных, которые очень легко доступны, если бы я мог каким-то образом использовать селекторы CSS...
20683 просмотров
schedule 21.03.2023

Поможет ли предоставление API-интерфейсов предотвратить очистку экрана?
В последнее время я довольно много думал здесь о очистке экрана и о том, что это может быть за задача. Поэтому я задаю следующий вопрос. Не могли бы вы, как разработчик сайта, предоставлять простые API-интерфейсы, которые не позволяли бы...
1900 просмотров

Как перенести ресурсы с проприетарной CMS?
Мне нужно перенести наш сайт с проприетарной CMS, которая использует активные серверные страницы. Есть ли инструмент или метод, который поможет загрузить ресурсы с существующего сайта? Думаю, я ищу инструмент, который будет сканировать и очищать...
220 просмотров
schedule 17.12.2022

Как программно выполнить поиск без использования API?
Я хотел бы создать программу, которая будет вводить строку в текстовое поле на сайте, таком как Google (без использования их общедоступного API), а затем отправлять форму и получать результаты. Это возможно? Я предполагаю, что для захвата...
5692 просмотров
schedule 27.05.2022

Ищите пример того, когда очистка экрана может быть полезной
Очистка экрана кажется полезным инструментом — вы можете зайти на чужой сайт и украсть его данные — как здорово! Но мне трудно понять, насколько это может быть полезно. Большинство данных приложения довольно специфичны для этого приложения даже...
2123 просмотров
schedule 30.01.2023

Очистка и анализ страницы в Википедии
Мне интересно, существуют ли какие-либо библиотеки в Objective-C или доступные из них, которые позволили бы мне очищать страницы, отформатированные как этот . В частности, все даты и весь текст рядом с каждой датой. Если нет, то как лучше всего это...
5354 просмотров

Как лучше всего написать удобное в сопровождении приложение для веб-скрейпинга?
Некоторое время назад я написал perl-скрипт, который входил в мой онлайн-банкинг и каждый день присылал мне по электронной почте мой баланс и мини-выписку. Я нашел это очень полезным для отслеживания моих финансов. Единственная проблема в том, что я...
1757 просмотров

PHP, Zend Framework: как получить страницу с другого сервера, а затем доставить контент?
Я думаю, что это также можно было бы назвать «выскабливанием». По сути, я хочу сделать, если кто-то нажмет на эту ссылку: <a href="/links/display/id/47">Click here</a> Я хочу, чтобы мой links контроллер, display действие:...
426 просмотров
schedule 06.08.2022

Отправка запросов и сбор результатов со страниц aspx с использованием python?
Я пытаюсь получить результаты для пакета запросов к этой странице демографических инструментов: http://adlab.microsoft.com/Demographics-Prediction/DPUI.aspx Действие POST в форме вызывает ту же страницу (_self) и, вероятно, отправляет некоторые...
2513 просмотров
schedule 06.11.2022

Скопируйте HTML-таблицы с заданного URL-адреса в CSV
Я ищу инструмент, который можно запустить из командной строки следующим образом: tablescrape 'http://someURL.foo.com' [n] Если n не указан и на странице более одной HTML-таблицы, они должны суммироваться (строка заголовка, общее количество...
6894 просмотров

очистить все твиты пользователя
Я хотел бы получить все твиты пользователя. Я мог бы сделать это трудным путем (вручную очищая твиттер) или простым способом: используя их API. Проблема с простым (api) способом заключается в том, что я, кажется, ограничен 200 самыми последними...
3432 просмотров
schedule 20.06.2022

Почему я получаю новый идентификатор сеанса при каждой выборке страницы в моем скрипте Perl WWW::Mechanize?
Итак, я очищаю сайт, к которому у меня есть доступ через HTTPS, я могу войти в систему и начать процесс, но каждый раз, когда я нажимаю новую страницу (URL), идентификатор сеанса cookie меняется. Как сохранить зарегистрированный идентификатор сеанса...
2820 просмотров

Как извлечь изображения из флеш-просмотрщиков?
Это относится к (разнообразным) флеш-просмотрщикам, которые позволяют увеличивать изображения на веб-сайтах. Я пытаюсь извлечь большое увеличенное изображение, отображаемое программой просмотра. Во многих случаях кажется, что изображения вызываются...
19484 просмотров

Парсинг сайтов, требующих входа в систему с помощью Python
Я использую несколько рекламных сетей для своих сайтов, и чтобы увидеть, сколько денег я заработал, мне нужно ежедневно входить в каждую из них, чтобы суммировать значения. Я думал о создании скрипта Python, который сделал бы это для меня, чтобы...
6012 просмотров
schedule 14.06.2023

Проблема с MSHTML COM при нажатии на кнопку отправки
У меня возникла проблема со скриншотом некоторых данных с этого веб-сайта с помощью MSHTML COM. составная часть. У меня есть элемент управления WebBrowser в моей форме WPF. Код, в котором я извлекаю элементы HMTL, находится в событиях...
2333 просмотров

Нужна помощь с очисткой экрана с помощью анемона и нокогири.
У меня есть начальная страница http://www.example.com/startpage , на которой разбито 1220 объявлений. путем нумерации страниц стандартным способом, например, 20 результатов на страницу. У меня есть рабочий код, который анализирует первую страницу...
2350 просмотров
schedule 26.04.2022

Альтернатива HtmlUnit
Я исследовал безголовые браузеры, доступные на сегодняшний день, и обнаружил, что HtmlUnit используется довольно широко. Есть ли у нас альтернатива HtmlUnit с возможным преимуществом по сравнению с HtmlUnit? Спасибо, Найн.
13117 просмотров

Как создать миниатюру html-контента, хранящегося в базе данных
Если бы вам нужно было преобразовать этот html-контент в небольшую миниатюру , как бы вы это сделали? P.S. Я пытаюсь сделать это, чтобы пользователи на моем сайте могли просматривать свои сообщения (содержащие элементы html (например, сильный...
2204 просмотров

Ошибки HTML Agility Pack
Я впервые пробую HTML Agility Pack и использую примерный раздел кода для анализа URL-адреса в HTML. Но я получаю сообщение об ошибке, но не знаю, почему я его получаю. Может ли кто-нибудь указать мне, что я делаю неправильно? Вот источник (html -...
1236 просмотров
schedule 13.05.2022

Groovy htmlunit getFirstByXPath возвращает null + вопрос OCR
В последнее время у меня было несколько проблем с возвратом нулей HtmlUnit, и я ищу руководство. каждый из моих результатов захвата первой строки веб-сайта возвращал значение null. Мне интересно, может ли кто-нибудь A) объясните, почему они...
1277 просмотров
schedule 26.06.2022