Что такое синтаксический анализ?

Размышление - это то, что я натолкнулся на многое в развитии, но, как младший, это одна из тех вещей, которые я предполагаю, что в какой-то момент, когда это будет необходимо, я смогу повесить. В моем текущем проекте мне сказали найти и использовать парсер HTML для определенной функции, я нашел пару в Интернете, но что на самом деле делает парсер HTML? И что это означает для синтаксического анализа объекта?

Ответ 1

Parsing обычно применяется к тексту - акту чтения текста и преобразованию его в более полезный формат в памяти, "понимание" что это означает в некоторой степени. Так, например, XML-парсер будет принимать последовательность символов (или байтов) и преобразовывать их в элементы, атрибуты и т.д.

В некоторых случаях (особенно в компиляторах) существует разделение между лексическим анализом и синтаксическим анализом, поэтому реальная "понимающая" часть парсера работает на последовательность токенов (идентификаторы, операторы и т.д.), а не на сырые символы.

Ответ 2

Вы можете начать здесь: http://en.wikipedia.org/wiki/Parsing. Короткая выдержка:

Анализ или синтаксический анализ - это процесс анализа строки символов, либо на естественном языке, либо на компьютерных языках, в соответствии с правилами формальной грамматики. Термин синтаксический анализ от латинских пар (orationis), что означает часть (речи).

Ответ 3

Анализ делает набор данных и извлекает из него значимую информацию. С помощью синтаксического анализа HTML вы хотите прочитать некоторый html и вернуть структурированный набор тегов и текста

Ответ 4

Парсер - это компонент компилятора/интерпретатора, который разбивает данные на более мелкие элементы для удобного перевода на другой язык. Парсер принимает входные данные в виде последовательности токенов или программных инструкций и обычно строит структуру данных в виде дерева синтаксического анализа или абстрактного дерева синтаксиса.

Ответ 5

Анализ (компьютеры), Dictionary.com:

Проанализировать (строку символов), чтобы связать группы символов с синтаксическими единицами базовой грамматики.

Ответ 6

Это процесс идентификации токенов [тегов, атрибутов] внутри HTML.

Ответ 7

В информатике и лингвистике синтаксический анализ или, более формально, синтаксический анализ - это процесс анализа текста, состоящего из последовательности токенов (например, слов), для определения его грамматической структуры по отношению к данному (более или менее) формальной грамматики.

: 0)

Wikipedia

Ответ 8

Не пытайтесь писать ничего, кроме тривиального парсера. Для этого используются хорошие инструменты ANTLR и bison - это два, о которых я могу думать.

Если вы используете инструменты, вы сможете обратиться за помощью, когда вы столкнулись с проблемой.

веселит, Мартин.