Вопросы по теме 'screen-scraping'
Библиотека селекторов PHP CSS?
Есть ли класс/библиотека PHP, которые позволили бы мне запрашивать документ XHTML с помощью селекторов CSS? Мне нужно очистить некоторые страницы для данных, которые очень легко доступны, если бы я мог каким-то образом использовать селекторы CSS...
20683 просмотров
schedule
21.03.2023
Поможет ли предоставление API-интерфейсов предотвратить очистку экрана?
В последнее время я довольно много думал здесь о очистке экрана и о том, что это может быть за задача. Поэтому я задаю следующий вопрос.
Не могли бы вы, как разработчик сайта, предоставлять простые API-интерфейсы, которые не позволяли бы...
1900 просмотров
schedule
17.05.2023
Как перенести ресурсы с проприетарной CMS?
Мне нужно перенести наш сайт с проприетарной CMS, которая использует активные серверные страницы. Есть ли инструмент или метод, который поможет загрузить ресурсы с существующего сайта? Думаю, я ищу инструмент, который будет сканировать и очищать...
220 просмотров
schedule
17.12.2022
Как программно выполнить поиск без использования API?
Я хотел бы создать программу, которая будет вводить строку в текстовое поле на сайте, таком как Google (без использования их общедоступного API), а затем отправлять форму и получать результаты. Это возможно? Я предполагаю, что для захвата...
5692 просмотров
schedule
27.05.2022
Ищите пример того, когда очистка экрана может быть полезной
Очистка экрана кажется полезным инструментом — вы можете зайти на чужой сайт и украсть его данные — как здорово!
Но мне трудно понять, насколько это может быть полезно.
Большинство данных приложения довольно специфичны для этого приложения даже...
2123 просмотров
schedule
30.01.2023
Очистка и анализ страницы в Википедии
Мне интересно, существуют ли какие-либо библиотеки в Objective-C или доступные из них, которые позволили бы мне очищать страницы, отформатированные как этот . В частности, все даты и весь текст рядом с каждой датой. Если нет, то как лучше всего это...
5354 просмотров
schedule
27.07.2022
Как лучше всего написать удобное в сопровождении приложение для веб-скрейпинга?
Некоторое время назад я написал perl-скрипт, который входил в мой онлайн-банкинг и каждый день присылал мне по электронной почте мой баланс и мини-выписку. Я нашел это очень полезным для отслеживания моих финансов. Единственная проблема в том, что я...
1757 просмотров
schedule
15.01.2024
PHP, Zend Framework: как получить страницу с другого сервера, а затем доставить контент?
Я думаю, что это также можно было бы назвать «выскабливанием». По сути, я хочу сделать, если кто-то нажмет на эту ссылку:
<a href="/links/display/id/47">Click here</a>
Я хочу, чтобы мой links контроллер, display действие:...
426 просмотров
schedule
06.08.2022
Отправка запросов и сбор результатов со страниц aspx с использованием python?
Я пытаюсь получить результаты для пакета запросов к этой странице демографических инструментов: http://adlab.microsoft.com/Demographics-Prediction/DPUI.aspx
Действие POST в форме вызывает ту же страницу (_self) и, вероятно, отправляет некоторые...
2513 просмотров
schedule
06.11.2022
Скопируйте HTML-таблицы с заданного URL-адреса в CSV
Я ищу инструмент, который можно запустить из командной строки следующим образом:
tablescrape 'http://someURL.foo.com' [n]
Если n не указан и на странице более одной HTML-таблицы, они должны суммироваться (строка заголовка, общее количество...
6894 просмотров
schedule
20.05.2022
очистить все твиты пользователя
Я хотел бы получить все твиты пользователя. Я мог бы сделать это трудным путем (вручную очищая твиттер) или простым способом: используя их API. Проблема с простым (api) способом заключается в том, что я, кажется, ограничен 200 самыми последними...
3432 просмотров
schedule
20.06.2022
Почему я получаю новый идентификатор сеанса при каждой выборке страницы в моем скрипте Perl WWW::Mechanize?
Итак, я очищаю сайт, к которому у меня есть доступ через HTTPS, я могу войти в систему и начать процесс, но каждый раз, когда я нажимаю новую страницу (URL), идентификатор сеанса cookie меняется. Как сохранить зарегистрированный идентификатор сеанса...
2820 просмотров
schedule
21.02.2023
Как извлечь изображения из флеш-просмотрщиков?
Это относится к (разнообразным) флеш-просмотрщикам, которые позволяют увеличивать изображения на веб-сайтах. Я пытаюсь извлечь большое увеличенное изображение, отображаемое программой просмотра. Во многих случаях кажется, что изображения вызываются...
19484 просмотров
schedule
03.11.2022
Парсинг сайтов, требующих входа в систему с помощью Python
Я использую несколько рекламных сетей для своих сайтов, и чтобы увидеть, сколько денег я заработал, мне нужно ежедневно входить в каждую из них, чтобы суммировать значения. Я думал о создании скрипта Python, который сделал бы это для меня, чтобы...
6012 просмотров
schedule
14.06.2023
Проблема с MSHTML COM при нажатии на кнопку отправки
У меня возникла проблема со скриншотом некоторых данных с этого веб-сайта с помощью MSHTML COM. составная часть. У меня есть элемент управления WebBrowser в моей форме WPF. Код, в котором я извлекаю элементы HMTL, находится в событиях...
2333 просмотров
schedule
13.09.2022
Нужна помощь с очисткой экрана с помощью анемона и нокогири.
У меня есть начальная страница http://www.example.com/startpage , на которой разбито 1220 объявлений. путем нумерации страниц стандартным способом, например, 20 результатов на страницу.
У меня есть рабочий код, который анализирует первую страницу...
2350 просмотров
schedule
26.04.2022
Альтернатива HtmlUnit
Я исследовал безголовые браузеры, доступные на сегодняшний день, и обнаружил, что HtmlUnit используется довольно широко. Есть ли у нас альтернатива HtmlUnit с возможным преимуществом по сравнению с HtmlUnit?
Спасибо, Найн.
13117 просмотров
schedule
04.09.2022
Как создать миниатюру html-контента, хранящегося в базе данных
Если бы вам нужно было преобразовать этот html-контент в небольшую миниатюру , как бы вы это сделали?
P.S. Я пытаюсь сделать это, чтобы пользователи на моем сайте могли просматривать свои сообщения (содержащие элементы html (например, сильный...
2204 просмотров
schedule
03.05.2023
Ошибки HTML Agility Pack
Я впервые пробую HTML Agility Pack и использую примерный раздел кода для анализа URL-адреса в HTML. Но я получаю сообщение об ошибке, но не знаю, почему я его получаю. Может ли кто-нибудь указать мне, что я делаю неправильно?
Вот источник (html -...
1236 просмотров
schedule
13.05.2022
Groovy htmlunit getFirstByXPath возвращает null + вопрос OCR
В последнее время у меня было несколько проблем с возвратом нулей HtmlUnit, и я ищу руководство. каждый из моих результатов захвата первой строки веб-сайта возвращал значение null. Мне интересно, может ли кто-нибудь
A) объясните, почему они...
1277 просмотров
schedule
26.06.2022