Порекомендуйте набор для парсинга на PHP 2017

Тема в разделе "PHP", создана пользователем FidaSa, 28 окт 2017.

Модераторы: latteo
  1. FidaSa

    FidaSa

    Регистр.:
    1 мар 2013
    Сообщения:
    511
    Симпатии:
    137
    Всем привет.

    Порекомендуйте, пожалуйста, какими инструментами пользоваться в PHP для парсинга.

    Хочу научиться парсить сайты любой сложности со скриптами и т.п.

    1) Нужно будет научиться: собирать ссылки со всего сайта (DOM не DOM).
    2) Собирать контент со страниц со скриптами (DOM не DOM).
    3) Имитировать нажатие кнопок, прокручивания мыши, кликов и событий.

    Каким методам и библиотекам стоит обучится для выполнения таких задач? Везде про CURL и SIMPLA пишут, это оптимальное решение или есть сейчас что то получше ?
     
  2. borodatych

    borodatych Постоялец

    Регистр.:
    24 июн 2016
    Сообщения:
    123
    Симпатии:
    72
    Посмотрите на PhantomJS.
    Не знаю как вы 3-е планировали на PHP делать, это не реализуемо.
    Мне понравилось на Go парсеры писать, скорость на высоте, про 3-е тоже можно забыть.
     
    FidaSa нравится это.
  3. TryCatch

    TryCatch

    Регистр.:
    19 авг 2016
    Сообщения:
    185
    Симпатии:
    76
    3-е можно на C# используя Awesomium, но это далеко не php.
     
    FidaSa нравится это.
  4. FidaSa

    FidaSa

    Регистр.:
    1 мар 2013
    Сообщения:
    511
    Симпатии:
    137
    Да я еле PHP освоила :)
    Мне точно PHP надо
     
  5. zabolots

    zabolots Постоялец

    Регистр.:
    11 сен 2012
    Сообщения:
    54
    Симпатии:
    21
    Вопрос довольно странный. Научитесь сначала работать с CURL, сделйте какой-нибудь относительно простой граббер сайтов.
    Имитация мыши и подобные задачи – тут php не поможет.
     
  6. vitrolov

    vitrolov Постоялец

    Регистр.:
    10 июн 2012
    Сообщения:
    136
    Симпатии:
    122
    Посмотрите на этот видеокурс, чтобы понять многие нюансы при написание парсеров.
     
    FidaSa и funnywheel нравится это.
  7. FidaSa

    FidaSa

    Регистр.:
    1 мар 2013
    Сообщения:
    511
    Симпатии:
    137
    Я так поняла с этим могут быть сложности:

    3) Имитировать нажатие кнопок, прокручивания мыши, кликов и событий.

    Может тогда на каком то другом языке учиться делать парсеры, где не будет проблем с этим пунктом ?
    Или чем то дополнить PHP можно ?
     
  8. CAPAXA

    CAPAXA

    Регистр.:
    7 июн 2007
    Сообщения:
    980
    Симпатии:
    584
    php и имитация работы юзера - однозначно php Human Emulator
     
    FidaSa нравится это.
  9. Chubazaa

    Chubazaa Писатель

    Регистр.:
    17 фев 2015
    Сообщения:
    5
    Симпатии:
    3
    You can't simulate pressing buttons, scrolling mouse, clicks and events with PHP, all you can do is to parse DOM elements after requesting some url with curl. You could use PhantomJS instead http://phantomjs.org/ or if you just want to do a stress test on your website you could use Apache JMeter http://jmeter.apache.org/, in this application you can simulate user access, scrolling mouse, navigation, etc.
     
    FidaSa нравится это.
  10. lexaz44

    lexaz44 Создатель

    Регистр.:
    21 мар 2017
    Сообщения:
    10
    Симпатии:
    0
    как и писали выше - лучше попробуйте сначала написать сами используя встренную библиотеку CURL. А потом уж можно и пробовать готовые решения, Snoopy например, и в дополнение модуль для разбора DOM - symfony/dom-crawler. Имитировать нажатие кнопок - это только на сайтах без js, где страница перезагружается после каждого действия. Мне кажется таких сайтов уже не существует :)