Скрипт автоматического выбора статьи со страницы

Тема в разделе "PHP", создана пользователем StrikeOFF, 13 дек 2018.

Модераторы: latteo
  1. StrikeOFF

    StrikeOFF ♥kan inte lyfta utan lift♥

    Регистр.:
    20 мар 2010
    Сообщения:
    373
    Симпатии:
    204
    Есть у кого-то такая штука ? Там собственно проблема в том что надо как-то определять какой из схваченых регуляркой текстов является статьей. Не всегда есть <p>, не всегда мало ссылок в статье чтобы отличить ее от меню.
     
  2. CAPAXA

    CAPAXA

    Регистр.:
    7 июн 2007
    Сообщения:
    980
    Симпатии:
    584
    StrikeOFF нравится это.
  3. secilius

    secilius Создатель

    Регистр.:
    1 фев 2014
    Сообщения:
    24
    Симпатии:
    18
    datacol парсер посмотрите программу
     
  4. joker13

    joker13 Создатель

    Регистр.:
    13 ноя 2012
    Сообщения:
    16
    Симпатии:
    11
    человек спрашивает php скрипт, а вы ему программу, платную, у которой почти нет толковых скриптовых решений.
    вот еще:
    https://github.com/crscheid/php-article-extractor
    запрос "php articles parser", поможет в поиске решений.
     
    Последнее редактирование: 5 янв 2019
    StrikeOFF нравится это.
  5. JustMuve

    JustMuve Создатель

    Регистр.:
    10 май 2014
    Сообщения:
    15
    Симпатии:
    11
  6. wespire

    wespire Постоялец

    Регистр.:
    18 мар 2008
    Сообщения:
    54
    Симпатии:
    6
    CAPAXA нравится это.
  7. jokids

    jokids Писатель

    Регистр.:
    9 май 2019
    Сообщения:
    3
    Симпатии:
    0
    А есть пример откуда парсинг нужно сделать? Без примера сложно подсказать как сделать...
     
  8. krast90

    krast90 Создатель

    Регистр.:
    4 апр 2008
    Сообщения:
    11
    Симпатии:
    3
  9. Minor

    Minor

    Регистр.:
    16 авг 2012
    Сообщения:
    234
    Симпатии:
    88
    Недавное занимался этим вопросом, более-менее нормально отделяющее статьи нашел на ноде
    https://github.com/mvasilkov/readability2

    Все остальное указанное здесь выдирало намного хуже, но сразу скажу я тестил на всем подряд а не только на статейниках, поэтому стоит сравнить конечно же.
    Еще к указанному дополню https://github.com/postlight/mercury-parser раньше была онлайн версия, но ее закрыли.