Павлов А. - Контент анализ эконом информации

Одной из интенсивно развивающихся отраслей использования машиночитаемых письменных источников в целях хранения и обработки является применение семантических языков разметки текста. Первоначально понятие разметки текстов использовалось для описания ссылок и других отметок в тексте как инструкция для наборщика или машинистки по правилам печати и оформления.

После того, как создание текстов было компьютеризовано, понятие разметки было расширено для обозначения всех кодов, вставленных в электронные тексты для управления форматированием, печатью и прочими видами обработки. В этом смысле разметка является кодировкой для ясного указания на то, как следует понимать текст. Удобство данного вида работы с электронными текстами состоит в том, что можно изменять коды без изменения источника. Язык разметки указывает правила кодирования документа, правила отличия знаков кода от знаков текста и что коды означают.

Все языки разметки основаны на трех основных положениях.
Во-первых, на самом примитивном уровне все тексты без исключения состоят из линий символов. Например, из букв или байтов данных, пометок на страницах или графики. Они получили название явления. По сути, это минимальная частица текста типа слова или точки, рассматриваемая вне зависимости от структурной или категориальной классификации.

В базе данных из свободного текста явления представлены набором байтов для хранения и обработки.
Во-вторых, на следующем уровне абстракции всякий текст рассматривается как совокупность объектов различного свойства. Данные объекты появляются в тексте закономерно в определенном отношении к прочим объектам. Объекты могут включать друг друга, иметь связи или быть последовательно представлены.

На этом уровне описания текст составлен из структурно определенных объектов, называющихся элементами. Однако тексты не являются простой чередой слов или байтов. Они содержат примеры объектов, такие как параграфы, заголовки, имена, даты, представленные последовательностью явлений.

Все схемы разметки текстов, в большей или меньшей степени, направлены на описание этих компонентов. Рассмотрение схем указывает по крайней мере три важных аспекта текстовых объектов, которые нуждаются в распознании.

Прежде всего, это протяжение - позиции в текстовом потоке, на которых формы объекта начинаются и заканчиваются; за ними следует тип - категория, которой предназначены формы объекта, после которой возникает контекст - связи текстовых объектов с формами другого объекта в документе.
Таким образом, и в-третьих, тип документа получается на основе грамматики, определяющей правила объединения классов текста. Подобным образом природа текста представляется как упорядоченная иерархия объектов содержания.

Различаются два основные типа языка разметки текстов: процедурный и описательный. Процедурный язык состоит из знаков, которые изначально ясно указывали на то, как размеченные элементы текста должны быть распечатаны.

Документы, размеченные процедурным языком, обыкновенно имеют начальную секцию, заголовок, который иногда хранится в отдельном файле. Заголовок определяет характер знаков, допущенных для описания текста, и значки, указывающие на отличие знаков процедурного языка от текста источника- оригинала.
В подавляющем большинстве случаев используются значки {...}, \...\, .... Заголовки также могут содержать заданные пользователем условные символы, с помощью которых сложные последовательности знаков процедурного языка могут сокращаться для легкости использования.

Подобная разметка текста требует специального программного обеспечения, которое изначально разрабатывалось для издательских целей. Различие между процедурным и описательным языками заключается в том, что описательный язык определяет скорее элементы и характерные черты документа, чем процедуры обработки. Задачей этого языка является определение различных феноменов в тексте, например, параграфов, предложений, действующих лиц. Данное различие описательного и процедурного языков рассмотрено в работах специалистов в области лингвистики и компьютерных технологий, гипертекста, гипермедиа, глобальных компьютерных сетей.

Остановимся несколько более подробно на выдвинутой общей теории разметки текста. Всякий раз, когда автор пишет что-либо, он размечает текст. К разметке относится промежутки между словами, отмечающие их границы, запятые, отмечающие границы фраз или точки, отмечающие границы предложений. Обыкновенно, автор постоянно использует два типа разметки текста в рукописи: пунктуационный и презентационный.

Под рукописью будем понимать любой вид текста. Пунктуационный язык разметки текста, например, указывает на концы предложений с помощью пробела. Презентационный язык может содержать, для сравнения, нумерацию страниц рукописи. Приведенные два типа разметки текста не могут быть игнорированы из-за того, что на них построена вся система европейского письма, русского в частности.

Пунктуационный язык разметки текста состоит из набора средств, обеспечивающих первичную синтаксическую информацию о написанных высказываниях. Из-за относительной стабильности пунктуации она доступна для большинства читателей. Однако ее характеризуют сложность в использовании в зависимости от стилистических вариаций авторов.

Социальное разнообразие пунктуации делает язык богаче, чем усложняет компьютерную обработку текста. Презентационный язык, по сравнению с пунктуационным, имеет подчиненный характер.

С его помощью делается ясное представление текста. Он включает в себя горизонтальные и вертикальные границы текста, номера томов и страниц, цитат и примечаний, а также указания на концы страниц или специальные символы. Пунктуационный и презентационный языки относятся к разряду естественных.

К разряду электронных языков разметки отнесены языки описания полнотекстовых баз данных, хранящих информацию в машиночитаемом виде: процедурный, описательный, референциальный и метаязык. Разработчики теории семантических языков делали ставку, прежде всего, на их создание и использование. Упомянутый ранее процедурный язык в компьютерный системах обработки текстов заменил презентационный.

Процедурный язык часто стал набором компьютерных команд, определяющих, каким образом следует форматировать текст в конкретных программах. Принцип использования описательного языка изложен выше.

Остановимся на референциальном языке. Он обращен к задаче замены пунктуации на ее описание, например точка вместо . или тире вместо -. Это может упростить процедуру компьютерную интерпретации текстов, отличающихся разнообразием пунктуации. Референциальный язык также использует библиотеки замен, хранимых в отдельном файле или другой компьютерной системе.

Строго говоря, в этом он сближается с описательным языком. Наконец, метаязык предоставляет пользователю возможность контролировать и интерпретировать все языки обработки текстов.

Для историков, имеющих целью анализ текста, более всего подходит описательный язык. Документы, размеченные описательным языком, также как и закодированные с помощью процедурного, имеют заголовок, содержащий допущенные знаки описания.

Однако знаки разных описательных языков могут отличаться от процедурного и между собой. Для того, чтобы было возможно переформулировать тексты, размеченные разными языками, существует метаязык Standard Generalized Markup Language (SGML) - стандартный обобщенный язык разметки. В середине 1980-ых SGML как инструмент текстологии получил официальное признание Международной Организацией Стандартов. В 1987 для простоты использования электронных текстов в исследованиях возник международный научный проект Text Encoding Initiative (TEI).

Для стандартизация обработки электронных источников TEI использует SGML.
Среди разработчиков большинства программ обработки текстов преобладали математики и лингвисты, из-за которых программное обеспечение стало отвечать прежде всего задачам лингвистического и литературного анализа. Проблема историчности текстов разработчиками не ставилась и не решалась.

Поэтому конкретно историческое изучение текстовых источников с помощью компьютерного контент- анализа обычно сопровождается классической научной критикой: определением временных и пространственных факторов, прямо и косвенно присутствующих в документах, их социальной направленности, общественного контекста возникновения источника, изменением смыслового содержания понятия во времени, эзопова языка, - то есть учетом совокупности факторов, лежащих за пределами вычислительной лингвистики. В этом случае большую роль начинают играть исследования по теории и практике аргументации, риторике, социальной семиотике, психолингвистике, лингвистической семантике, прагмалингвистики и теории массовой коммуникации.

Разметка текста языками семантических маркеров не может полностью решить задачи анализа социальной информации. Понятие анализ текста в большинстве случаев использовалось для обозначения всего, что не является просто поиском в документе и проверкой правописания.

Среди формальных методов обработки текстов на первом месте обычно упоминается контент-анализ.
Обычно термин контент-анализ используется для обозначения двух разных вещей: метода для автоматической классификации документов по содержанию и метода для раскрытия значения слов и идей. Автоматическая классификация документов в течение ряда лет используется в историко-социальных науках и библиографических системах поиска.

Текст, его резюме или заголовок служат основными основами классификации. Напротив, семантический контент- анализ нацелен на определение организации слов вокруг идей или понятий в большей степени, чем на организации текста.

Суть подхода заключается в сведении изучаемого текста к ограниченному набору определенных элементов, которые затем подвергаются счету и анализу на базе фиксации частоты повторяемости символов и их корреляции друг с другом. Слова в тексте при этом классифицируются в соответствии с их дистанционными связями между собой. Для этого используется лингвистическая и статистическая техника, например кластерный анализ или анализ связей. В распоряжении текстологов находится ряд программ автоматизированного анализа для компьютеров IBM Контент-анализ в литературных и лингвистических расчетах начал интенсивно развиваться в 1950-х годах.

Он оказался приемлемым для изучения широкого круга проблем гуманитарного знания и социальных наук. Контент-анализ нашел эффективное применение в исследованиях этно- культурных, политических явлений, истории мысли. Социологи, специализировавшиеся на исследованиях массовой коммуникации, приступили к разработке контент- анализа в основном в США. В дальнейшем при участии математиков его применили в политологии, философии, лингвистике.

Применение контент-анализа в истории оказалось ограничено потребностью в сильной классической традиции в значительно большей степени, чем в эмпирической социологии или психологии, построенных на методическом фундаменте непосредственных наблюдений и экспериментов. Кроме того, контент-анализ, несмотря на видимую интердисциплинарность, был разработан прежде всего в связи с потребностями социологических исследований содержания массовой коммуникации.

Социологи сформулировали общие теоретические принципы формализации эмпирических данных, приемов анализа текстов, которые с тех пор стали совокупно называться контент-анализом. Некоторые проблемы применения данного типа анализа в истории оказались внешними проявлениями ряда теоретико-методологических расхождений между исторической наукой и социологией, как близких, но самостоятельных социальных наук.

Социологизированность контент-анализа - специфическая черта - осложнилась прямой зависимостью результатов исследования от того, что именно в тексте исследователь считает возможным подвергнуть формализации, подсчету, а также какими теоретико- методологическим принципами при этом он намерен воспользовался. В классической статистике данная проблема решается на первом этапе составления формуляра для сбора эмпирических данных.

В текстологии ее решают в ходе анализа эмпирического материала. Проблема формализации в текстологии более сложна.

Вопрос о корректности изучения формализованных текстов в значительно большей степени открыт для критики по сравнению с методикой в изучении хорошо структурированных источников типа переписей или фабрично-заводской статистики. Однако проблема теоретического анализа, проведенного до и после вычислений, остается общей.

Моделирование в политической и социально- экономической истории постоянно испытывает ее влияние как результат фундаментальных объектно-субъектных отношений в области эпистемологии. В количественном анализе повествовательных источников интересный вопрос также представляет теоретическая возможность выборочного научного изучения материалов. В ряде случаев не представляется возможным выработать универсальный критерий и метод отбора внутри единого корпуса документов, то есть выборки из генеральной совокупности, в отличие от ряда статистических данных, характеризующихся массовостью и повторяемостью.

Использование всеобщего принципа представительных выборок не выдерживает критики в текстологии из-за отсутствия однородности содержания документов единого корпуса. Теоретически трудно исключить при правовом анализе документов аграрной политики, например, какой-либо проект из единого портфеля законодательных реформ Думы.
Методы контент-анализа привлекались при исследованиях различных по времени и характеру повествовательных источников. Ближе всего к социологическому фундаменту этого метода оказались исследования исторической прессы.

Именно для периодики контент-анализ был разработан, и благодаря интересу к процессам массовой коммуникации историки получили возможность формального анализа текстов.
Благодаря постоянному поиску методов текстологии, появились исследования политического мышления с помощью когнитивного картирования, преобразующего линейную аргументацию в иерархическое древо. Несмотря на ряд нерешенных проблем формализации рассуждений, данные исследования сохранили методологическую значимость. Отход от принципа линейности стал удобным способом перестройки информации в дальнейших лингвистических, исторических, философских исследованиях, разработках программного обеспечения для анализа письменных источников.

Вообще, методологические проблемы применения когнитивных методов в исследованиях заняли особое место среди специалистов в области моделирования социального взаимодействия, социальной психологии и политического мышления из-за того, что формальный анализ в перечисленных социальных науках развивался под определяющим влиянием американского математика Аксельрода и группы исследователей во главе с Бонемом и Шапиро, увлекавшимся французским структурализмом под влиянием Фуко.
Обращение к ментальным категориям основано на стремлении объяснить процесс принятия решения с помощью методов понимания текста, еоретически-игрового моделирования. Подробно проблемы когнитивного картирования и операционного кодирования как взаимодополняющих методов анализа процесса принятия решения рассматрены в статье известных норвежских политологов Херадствейта и Нарвесена. Они разобрали ряд методологических вопросов использования кодирования и картирования как методов когнитивной репрезентации политического мышления при помощи компьютера.

Ко времени написания статьи исследования по компьютерному моделированию политического мышления носили экспериментальный характер. Начало им положили работы профессора Йельского университета Абельсона.

Абельсон стал известен рядом междисциплинарных работ по применению методов компьютерного моделирования к изучению политического мышления и развитию когитологии. Им была создана одна из первых иерархических моделей понятийных структур. Работа Абельсона в области когнитивного диссонанса положила начало сотрудничеству с Шенком, результатом которого стала совместная книга и ряд систем интерпретации политических текстов .
Резюмируя, отмет, что компьютерный анализ текстов вобрал в себя достижения нескольких научных подходов. Выяснилось, например, что при обработке и анализе текста для исследователей важное значение имеет показ частоты встречаемости различных классов лексики (concordances). Это позволяет точно определять значение конкретных слов и фраз в контексте.

Совместная встречаемость частей речи впервые была использована на практике при изучении точного значения слов Бога и пророков в библейских текстах. Первое компьютеризированное исследование в данной гуманитарной области было проведено священником Бузой для составления частотного словаря работ Фомы Аквинского. В дальнейшем католические теологи, вставшие у истоков исторической количественной филологии, создали самостоятельную школу компьютеризированного анализа сакральной литературы с центром во французском католическом университете г. Лувен.

В 1968 при нем был образован Центр электронной обработки документов CETEDOC. , что совместная встречаемость, исследованная впервые теологами, не является статистической мерой. Это реорганизация текстологической информации для выделения контекста использования определенных слов.

Компьютерный показ совместной встречаемости слов является, по-существу, самым старым и наиболее распространенным способом применения компьютера в гуманитарной области.
Начиная с 1950-х годов большинство современных и старых европейских языков были подвергнуты подобной обработке, что привело к включению анализа встречаемостей в состав расхожих методов текстологии и исчезновению представления о нем как о новом и экспериментальном. Одним из способов демонстрации совместной встречаемости может являться перечень слов с указанием на местонахождения, причем ключевые слова показываются справа или слева от контекста. В данном случае перечень не может расцениваться как достаточная для историка перестройка текста, при которой желательно демонстрировать семантическое окружение для каждой встречаемости.

Без этого исследователь, использующий подготовленные результаты, не может избежать необходимости постоянного обращения к оригиналу для проверки использования слова. С подобной формой изложения результатов на границе контекста связан формат демонстрации совместной встречаемости KWOC - ключевое слово без контекста (keyword-out-of-context), который разрабатывался для исследования прозаических текстов. Вместе с анализом прозы тесно развивалось изучение поэтического языка с акцентом на демонстрирование контекста слов в поэтической строке как основной единице произведения.

Большинство исследований в создании компьютерных программ для показа совместной встречаемости классов лексики последовали данному принципу. В результате специалисты пришли к альтернативному KWOC'у формату - ключевое слово в контексте KWIC (keyword-in-context). Вместо демонстрирования полного контекста предложения, часто занимавшего несколько строк, как это было возможно при принятии формата KWOC-формата, KWIC демонстрировал ключевые слова в центре экрана компьютера с контекстом, умещающимся на одной строке. При включении данных в исследования, организованные на основе KWIC'а или KWOC'а, специалистами часто подчеркивается отрицательное воздействие на результаты слабой критики источников, предварявшей расчеты.

Это выражается в неясности методики исследования, ограниченности выводов, излишней детализации.
В числе наиболее эффективных программ для исследования совместной встречаемости в формате KWIC довольно часто упоминается COCOA (COunt and COncordance Generation on Atlas), разработанная компьютерной лабораторией Атлас в Англии (Chilton Atlas Computer Laboratory). Программа написана для демонстрации совместной встречаемости слов и их подсчета британским ученым Расселом (D.B.Russell) в 1967.

СОСОА состояла из частотного профиля и трех таблиц, содержащих список слов с указанием частоты их встречаемости в тексте, словаря и порядка графической рифмовки. Она была в состоянии показывать и сортировать ключевые слова в контексте. Заметим, что существует возможность показа не только слов, но и букв в контексте - KLIC (key-letter-in-context). Однако последние 30 лет автоматическое индексирование и исследование конфигураций слов в формате KWIC показывало, главным образом, частоту слов в тексте и списки ключевых слов в контексте.

Программы реорганизовывали линейный текст вертикально таким образом, что каждая форма каждого слова могла быть быстро найдена по правописанию или словарной форме. Выгоды нелинейного представления текста, использованные в когитологии, политологии и истории, были развиты текстологами. Принципы СОСОА в KWIK'е оказались использованы в ряде программ для IBM-совместимых компьютеров.

Среди них часто упоминаются Oxford Сoncordance Programm (OCP; Hockey, Martin, 1988: переработана в Micro-OCP), WordCruncher (Jones, 1987), TACT (Bradley, Presutti 1990), KAYE (Kaye, 1989), CLAN (MacWhinney, Snow, 1990). Они позволили решать некоторые вопросы стилистического, лингвистического, лексического анализа во много раз быстрее по сравнению с предыдущими программами. В последние десять лет новое поколение программного обеспечения использует эффективную обработку текста, опирающуюся на топографический принцип реорганизации слов в тексте.

Они представлены в форме нелинейных гистограмм на основе их позиции в линейном тексте. Программы WordCruncher и Tact позволили показать распределение определенных слов в форме графика, на котором видно наличие или отсутствие таких слов в частях текста.

Эти слова иногда называют плюсовыми или минусовыми, когда они встречаются более или менее часто в одном месте, а не в другом.

Содержание раздела