Парсинг (Parsing)

Что такое «Парсинг (Parsing)»?

Автоматизированный сбор контента или данных с какого-либо сайта или сервиса. Как правило, парсинг производится с применением одного из скриптовых, серверных языков программирования: PHP, Perl и других. Результат парсинга чаще всего складывается в базу данных, в файл, либо выдается в формате XML.

Скрипт или программа, занимающаяся, непосредственно, сбором, анализом и преобразованием требуемой информации называется парсером.

На фриланс-биржах и специализированных форумах, парсинг чего-либо — крайне популярный вид услуг, пользующийся большим спросом. Как правило, под этими услугами подразумевается создание парсера, способного собрать нужную информацию или контент. Но нередки случаи, когда заказчика интересует исключительно сам контент, который он и просит предоставить ему в удобном для него виде.

Заметим, что парсинг — это, по сути, преобразование данных из неудобоваримого формата в формат удобованимый. То есть, например, разбор и импорт RSS ленты, парсингом не является, поскольку формат RSS является подмножеством стандартного формата XML.

Фазы парсинга

Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:

  1. Получение контента в исходном виде. Под получением контента, чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека cURL для языка PHP;
  2. Извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного, на первом этапе, кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется;
  3. Генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных, на втором этапе, данных, в требуемый формат. Чаще всего, запись ведется напрямую в базу данных.

В качестве примера можно рассмотреть статью о создании парсера на PHP. Созданный в ней парсер, состоит ровно из трех, приведенных выше, частей.

← перейти к оглавлению