Контент-анализ в гуманитарных науках. Вводная лекция.

Download Report

Transcript Контент-анализ в гуманитарных науках. Вводная лекция.

Slide 1

Томский государственный университет
Исторический факультет

Бочаров А.В.
КОНТЕНТ-АНАЛИЗ
В ГУМАНИТАРНЫХ НАУКАХ
спецкурс

Слайд-шоу к вводной лекции

«Определения и назначение метода контентанализа»


Slide 2

Глобальные задачи
контент-анализа (КА)
• Избыточное культурное предложение
(информационный взрыв) –
глобальная проблема XXI века
• Диспропорция между человечеством как совокупным
производителем информации и отдельным человеком
как ее потребителем.  С каждым поколением даже в
узкой профессиональной области на личность
наваливается все более тяжелый груз знаний, которые
она не в состоянии усвоить.

• Один из путей решения: превращение
Рекомендуемая
статья:
Эпштейн
М.Н.
неструктурированной информации в
"Информационный
взрыв и травма постмодерна"
структурированную
г.)
•(1998
Это превращение
– главная цель КА


Slide 3


Slide 4

Текстовая информация
Отличительные

признаки
Форма
текста

НЕструктурированная
Нестандартизированный и
неформализованный текст,
состоящий из предложений на
естественном языке.

Содержание Полнотекстовое изложение
идей, смыслов и сюжетов
текста
(свободный текст).

Структурированная
Стандартизованный или
формализованный список из
символов, слов или
словосочетаний.
Только краткие обозначения и
название тематик, смыслов и
сюжетов (строго
лимитированный текст).


Slide 5

Текстовая информация
Отличительные

признаки
Образ
предметной
области

НЕструктурированная
Описания реальности не
разделяется явно и
обязательно на части, которые
напрямую сводятся к триаде

«сущность-признак-связь».
Виды
практических
реализаций
текстов

Разножанровые авторские
тексты не имеющие статус
документов или тексты
документов (отчёты,
стенограммы, проекты,
характеристики, заявления)

Структурированная
Описания реальности явно и
обязательно разделяется на
части, которые напрямую
сводятся к триаде
«сущность-признак-связь».
Таблицы и списки со
значениями
текстологических признаков.


Slide 6

Текстовая информация
Отличительные

признаки
Типы
электронных
файлов

Уровень
единообразия
Поводы к
написанию
текста при
анкетировании

НЕструктурированная

Структурированная

Текст в любых форматах
может
быть
сведен
к
отдельным
текстовым
файлам
без
потери
информации.

Базы
данных
или
электронные
таблицы,
которые не могут быть
сведены
к
отдельным
текстовым
файлам
с
линейным текстом без потери
информации.
Единообразие содержания в Единообразие
содержания
разных текстах из одного таблиц и списков сведено к
массива сводится к минимуму. максимуму.
Ответы на открытые
вопросы анкет и
опросников,
предполагающих
самостоятельное
изложение респондентом.

Ответы на закрытые
вопросы анкет и
опросников,
предполагающих выбор из
заранее готовых вариантов
ответов.


Slide 7

Текстовая информация
Отличительные
признаки

НЕструктурированная

Структурированная

Нестандартизированный и неформализован-ный текст,
состоящий из предложений на естественном языке.

Стандартизованный или формализованный
символов, слов или словосочетаний.

Содержание текста

Полнотекстовое изложение идей, смыслов и сюжетов
(свободный текст).

Только краткие обозначения и название тематик, смыслов и
сюжетов (строго лимитированный текст).

Допущение
повторений

Неповторяющиеся
инвариантные
предложения.
Случайные повторения не являются идентичными
компонентами текста.

Принципиальное допущение повторяющихся идентичных
вариантов целостных компонентов списка.

Образ предметной
области

Описания реальности не разделяется явно и
обязательно на части, которые напрямую сводятся к
триаде «сущность-признак-связь».

Описания реальности явно и обязательно разделяется на
части, которые напрямую сводятся к триаде «сущностьпризнак-связь».

Виды практических
реализаций текстов

Разножанровые авторские тексты не имеющие статус
документов; тексты документов (отчёты, стенограммы,
автобиографии, характеристики, заявления и т.п.).

Таблицы, списки и отчеты с генерированными частотами
значений в таблицах или списках.

Поводы к написанию
текста при
анкетировании

Ответы на открытые вопросы анкет и опросников,
предполагающих
самостоятельное
изложение
респондентом.

Ответы на закрытые вопросы анкет и опросников,
предполагающих выбор из заранее готовых вариантов
ответов.

Типы электронных
файлов

Текст в любых форматах может быть сведен к
отдельным текстовым файлам без потери информации.

Базы данных или электронные таблицы, которые не могут
быть сведены к отдельным текстовым файлам с линейным
текстом без потери информации.

Уровень
единообразия

Единообразие содержания в разных текстах из одного
массива сводится к минимуму.

Единообразие форм интерфейса и содержания таблиц и
списков сведено к максимуму.

Взаимодействие с
противоположным
видом текстовой
информации

Неструктурированная информация может содержать
внутри себя фрагменты
структурированной, при
условии что ими не исчерпывается весь текст, иначе он
теряет статус неструктурированного.

Структурированный компонент таблицы или списка не
может содержать внутри себя неструктурированную
информацию, иначе он теряет статус структурированности.

Контент-анализ

Форма текста

список

из


Slide 8

Определения контент-анализа
текстов
От англ.: contents - содержание,
содержимое
Текст (лат. tekstum - ткань, сплетение) последовательность символов, образующих
сообщение. Текст - система высказываний,
обладающих единым смыслом.
Текст в узком смысле– состоит из букв.
Текст в широком смысле – из любых символов.


Slide 9

Определения контент-анализа
текстов
• Количественный анализ текстов и текстовых массивов с
целью последующей содержательной интерпретации
выявленных числовых закономерностей.
• КА – это систематическая числовая обработка, оценка и
интерпретация формы и содержания информационного
источника
• Исследовательский метод для определения присутствия
определенных слов или понятий в тексте или массивах
текстов


Slide 10

Определения контент-анализа
текстов
• КА – это совокупность методик формализации текстов,
предусматривающих процедуру сведения текста к
ограниченному набору определенных элементов,
которые подвергаются счету.
• Сущность метода КА состоит в фиксации определенных
единиц содержания, которое изучается, а также в
квантификации полученных данных.
• КА позволяет на основе статистических методов и
теории множеств выявить поведение некого
подмножества слов в неком их множестве, что
позволяет сжать информацию и определить её
тренды (trend – направление, курс, тенденция).


Slide 11

Определения контент-анализа
текстов
Восхождение от многообразия
текстового материала к абстрактной
модели содержания текста. В этом
смысле, КА – одна из номотетических
исследовательских процедур (греч.
Nomo-teteo - издавать закон),
используемых в сфере применения
идеографических методов (греч. Ideo –
образ, идея, grapho - пишу).


Slide 12

Определения КА:
Методы стандартизации
количественно точного поиска
значений и смыслов в текстах,
с целью выявления и изучения
содержательных аспектов,
невыявляемых при обычном прочтении.
Читатель преодолевает путь от
языковых средств выражения к идее.
Задача КА - сократить этот путь.


Slide 13

Взаимосвязь прикладного использования
КА в разных дисциплинах











историография, история идей, история ментальности
политология и международные отношения
психология личности и психодиагностика
социология и социальная психология
культурология и литературоведение
историческое источниковедение
экспериментальная лингвистика
маркетиг и маркетология
юридическая экспертиза
документоведение

Специфика использования методик КА в каждой из дисциплин может
послужить эвристическим образцом для использования во всех
остальных дисциплинах. Для этого нужно задать вопрос: нельзя
ли тоже самое, что сделано в анализе текстов для решения одной
специфической задачи, применить и для решения другой
специфической задачи.


Slide 14

Междисциплинарность прикладного
использования КА:
 Интерпретация скрытых смыслов и интеллектуальных
тенденций в текстах исторических источников.
 Интерпретация исторических повествований как
феномена исторического сознания.
 Интерпретация соцопросов (анкет, интервью) для
выявления установок, интересов и ценностей (и, шире,
систем убеждений и «моделей мира») различных групп
населения и общественных институтов.
 Психодиагностика личности или групп на основе
текстов, написанных на заданные темы. Выявление
фокусов внимания индивидов, групп и социальных
институтов.


Slide 15

Междисциплинарность прикладного
использования КА:

 Социально-психологический анализ текстов СМИ для
задач PR. Выявление используемых пропагандистских
или рекламных приемов.
 В прикладной политологии - для анализа неявных
(имплицитных) смыслов в текстах программных
политических документов, для изучения различий в
содержании коммуникативных процессов в различных
странах.
 Лингвистический анализ в юридической экспертизе
текстов, по поводу содержания которых ведётся
судебное разбирательство.
 Разработка компьютерных экспертных систем
автоматизированной обработки неструктурированной
информации и создание систем искусственного
интеллекта


Slide 16

Междисциплинарность методологических
оснований контент-анализа
Семиотика

Лингвистика

Математическая
статистика

Дискретная
математика

Литературоведение

Когнитивная
психология

теория
контентанализа

Психология
речевой
деятельности


Slide 17

Междисциплинарность методологических
оснований контент-анализа


В исторической науке - Источниковедение



Лингвистика - для установления единиц и категорий текста для КА



Литературоведение – для установления культурных феноменов и
тенденций, в разновидностях тематического и мотивационного КА



Математическая статистика - для обработки количественных данных
КА, использование матстатистики для разных видов КА может быть либо
обязательной и основной, либо возможной и дополнительной



Дискретная математика и математическая логика - для построения
граф-схем визуализации результатов КА и для создания алгоритмов
автоматизированного КА



Семиотика (семиология) – название теорий, изучающих различные
свойства знаковых систем – для установления соотношения текстовых
знаков и знаков социального, культурного, духовного и любых других сфер
из предметной области научного исследования.



Когнитивная психология, психология речевой деятельности– для
выявления взаимодействия текстовых и психических явлений.


Slide 18

Виды контент-анализа:
Частотный анализ (Манифестное кодирование)
(manifestus – явный, обнаруженный)

1.


2.

Стилометрия (распознавание авторского стиля)
(stilus – инструмент для письма, способ написания)

Семантический анализ (Латентное кодирование)
(latens – скрытый, невидимый)
 Контекстный анализ (тематический)

(contextus
– сплетение, сочетание)анализа
Все виды
семантического
 Интент-анализ (выявление психологического подтекст)
неизбежно
илинаправленность)
имплицитно
(intention -явно
стремление,
 Когнитивное
семантических
содержат
в себекартирование
в качестве (визуализация
первого этапа
связей) (cognition – знание, познание)
частотный
анализ
 Иве́нт-анализ (фактографическая систематизация)
(event – событие, факт)



Нарративный анализ (структурирование сюжетных связей)
(narratus – повествование, рассказ по порядку)


Slide 19

Общие этапы проведения КА:
1.

Определение совокупности изучаемых источников
или сообщений (объекта исследования) с помощью
набора заданных критериев, которым должно отвечать
каждое сообщение.

2.

Формирование выборочной совокупности сообщений
(выборка данных). Определение репрезентативности
(степени полноты) выборки.

3.

Выявление единиц анализа. Ими могут быть слова
или темы. При выборе единицы руководствуются
целями и предметом исследования. Исходят из того,
какая объективная реальность (социальная, культурная,
психологическая) стоит за текстовыми признаками.


Slide 20

Общие этапы проведения КА:
4. Выделение единиц счета, относительно которых
определяется количество единиц анализа. Единица счета,
позволяет регистрировать частоту (регулярность) появления
признака в тексте. Единица счета в КА – это количественная
мера взаимосвязи текстовых и внетекстовых явлений
(социальных, культурных, психологических).
 количество текстов относительно изучаемой выборки

 физическая протяженность текстов;
 площадь текста, заполненная смысловыми единицами;
 число структурных единиц текста (предложений, абзацев, глав,
знаков, колонок);
 длительность трансляции по радио или ТВ;
 метраж пленки при аудио- и видеозаписях,
 количество рисунков с определенным содержанием, сюжетом и
прочее.


Slide 21

Общие этапы проведения КА:
5.

Процедура подсчета: Составление карточек
признаков для изучаемых текстов (протоколов
обработки); составление матрицы формализованных
данных на основе протоколов обработки текстов.

6.

Определение и использование математического
аппарата, исходя из свойств матрицы и целей
исследования.

7.

Интерпретация полученных результатов в
соответствии с целями и задачами конкретного
исследования. Выявляются и оцениваются такие
характеристики текстового материала, которые
позволяют делать заключения о том, что хотел
подчеркнуть или скрыть его автор.


Slide 22

Общие этапы проведения КА

Этапы КА – это
своеобразный
фильтр, который
отфильтровывает
текстовую
информацию,
делая её всё
менее объёмной
и всё более
содержательной

Структурированная
информация

>>


Slide 23

Критерии (пункты и этапы)
проектирования или описания
контент-аналитического исследования
1.

Описание объекта исследования: какой конкретный текст или
выборка текстов анализируется в исследовании.

2.

Цели и задачи, связанные с предметом исследования из
предметной области базовой дисциплины.

3.

Учитываемые и анализируемые лингвистические единицы текста.

4.

Учитываемые единицы счёта, относительно которых выявляется
встречаемость лингвистических или семантических единиц текста.


Slide 24

Критерии (пункты и этапы)
проектирования или описания
контент-аналитического исследования
5.

Фрагмент изучаемого текста или выборки текстов и карточка его
анализа (либо указание на то, приводятся ли фрагменты текстов
и какие в чужом исследовании).

6.

Внетекстовые явления предметной области базовой дисциплины
(исторические, психологические, социальные, литературные,
политические и др.), отождествляемые с учитываемыми
лингвистическими единицами или
выводимые из
них.
Экстралингвистический контекст повлиявший на особенности
содержания текста.

7.

Вид КА и обоснование использования именно этого вида.

8.

Эмпирико-методические
цели
и
задачи,
применением КА к изучаемому тексту (то
структурирования информации).

связанные
с
есть способы


Slide 25

Критерии (пункты и этапы)
проектирования или описания
контент-аналитического исследования
9.

Описание матрицы данных, на которой основано исследование
(какие единицы счёта в строках, какие единицы анализа в
столбцах).

10.

Описание
использования
математических
методов
и
обоснование
использования
именно
этих
методов
(в случае простого процентного анализа указать, что берётся за 100%).

11.

Описание приведённых либо возможных форм и способов
представления эмпирических числовых результатов КА
(вербальное описание типов графиков и структуры таблиц).

12.

Обобщающие выводы и выявленные закономерности
предметной области базовой дисциплины.

для