Качественные и количественные стратегии контент

Download Report

Transcript Качественные и количественные стратегии контент

Качественные и
количественные стратегии
контент-анализа в социальных
исследованиях: анализ случаев
д.э.н., PhD Антон Олейник (ЦЭМИ РАН)
д.с.н. Светлана Кирдина (ИЭ РАН)
к.с.н. Ирина Попова (ИС РАН)
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
1
Основные положения доклада
1. Контент-анализ как методология исследования
2. Случай 1: исследование российской
властвующей элиты
3. Случай 2: подготовка обзора литературы по
возрастающей отдаче в экономике
4. Случай 3: анализ интервью ученых
5. Случай 4: пилотный проект по исследованию
академического чтения
6. Основные выводы
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
2
Контент-анализ
• Cлово, текст, а не цифра является основным источником
информации в социальных и гуманитарных науках
[Библер, 1991: 72; Lotman, 1990: 2]. Но, в отличие от
цифры, слово труднее поддается агрегированию
(«сжатию») и манипулированию ввиду своей более
контекстуальной и многозначной природы
• Контент-анализ как «исследовательская техника,
позволяющая делать надежные и достоверные выводы
из текстов (или других наделенных смыслов явлений) в
зависимости от конкретного контекста их прочтения»
[Krippendorff, 2004: 18]
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
3
Разновидности контент-анализа
Контент-анализ
Качественный
Количественный
Использование
словаря,
основанного на
замещении
Корреляционный
подход
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
4
Разновидности контент-анализа
• Качественный контент-анализ (кодирование вручную)
предназначен для определения фрагментов текста,
которые соответствуют идеям автора и читателя и
отражают ключевые понятия через качественные коды.
• Количественный контент-анализ (совместная
встречаемость слов) значительно облегчает семантический
анализ предложений.
• Словарь, основанный на замещении - гибридная форма
качественного и количественного контент-анализа. После
разработки словаря (списка слов и словосочетаний,
которые относятся к каждому из качественных кодов)
участие человека уже не требуется.
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
5
Сравнительные характеристики
качественного и количественного
контент-анализа
Качественный
Количественный
Кодирование in vivo (в живую) Использование книги кодов
Акцент на понимании и
интерпретации
закодированных фрагментов
Акцент на частотности кодов
Теоретические и «удобные»
выборки
Случайные выборки
Акцент на латентном контенте Акцент на явном контенте.
Например, любое упоминание
«матрицы» кодируется как
«теория институциональных
матриц»
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
6
Компьютерные программы для
контент-анализа
• QSR International, Australia
http://www.qsrinternational.com/: NVivo,
N6 (NUD*IST), XSight
• Provalis Research, Canada (Montreal)
http://www.provalisresearch.com/: QDA
Miner (module for qualitative content
analysis) and WordStat (module for the
analysis of co-occurrences and the use of
dictionaries based on substitution)
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
7
8
27 мая 2013
9
Примеры некоторых операций
1. Поиск информации по ключевым словам, в т.ч. KWIC:
Key Word In Context
2. Индексирование: Качественное кодирование
представляет собой частный случай индексирования:
после прочтения текста кодировщик присваивает
особые маркеры, соответствующие конкретным
кодам, его фрагментам. В результате индексирования
текст превращается в вектор кодов
3. Лексический анализ совместно встречающихся слов и
их кластеров и так далее
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
10
11
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
12
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
13
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
14
Примеры некоторых операций
4. Анализ сходства текстов по критерию
совместной встречаемости категорий и
кодов
5. Анализ сходства кодов в зависимости от
того, как часто они встречаются в одном и
том же тексте
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
15
Карта сходства текстов президентских посланий по
критерию совместной встречаемости категорий и
кодов (на русском и английском языках)
Легенда: Stress=0.321031, R?=0.6507
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
16
Надежность и достоверность
• Аспекты надежности: надежность как стабильность
(многократное использование схемы кодирования текста
одним и тем же исследователем дает одинаковый результат),
надежность как возможность воспроизвести полученный
результат двумя и более исследователями (коэффициент
согласия между кодировщиками, inter-coder agreement) и
надежность как точность (соответствие итогов кодирования
некоему заданному стандарту)
• Достоверность – это особое качество исследования, которое
позволяет говорить об его истинности [Krippendorff, 2004: 313],
вне зависимости от того что под ней подразумевается в
конкретном случае – соответствие авторскому замыслу или
исследовательским задачам вторичного интерпретатора
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
17
Соотношение надежности и
достоверности
Ненадежный и
недостоверный результат
27 мая 2013
Надежный, но
недостоверный результат
Междисциплинарный методологический
семинар ИС РАН
Надежный и достоверный
результат
18
Измерение надежности и
достоверности
• Коэффициенты согласия между кодировщиками: π Скотта, κ
Коэна, S Бенетта, α Криппендорфа и др.
• Если в качестве точки отсчета принять авторский замысел, то
для оценки достоверности конкретной интерпретации
(кодирования) требуется расчет коэффициента корреляции
между сочетаниями качественных кодов и совместной
встречаемостью слов в текстах [Олейник 2009]
• Если же в качестве точки отсчета принимать интенции
вторичного интерпретатора, то требуется расчет корреляции
между векторами качественного кодирования и результатами
количественного контент-анализа с использованием
основанного на замещении словаря
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
19
Случай 1: исследование
российской властвующей элиты
Объект
Объектом исследования
были властные
отношения в России на
макро-уровне
(государство и его
представители)
27 мая 2013
Предмет
Предметом исследования
служат различные
характеристики власти, в том
числе техники навязывания
воли, - как они отражены в
проанализированных с
помощью компьютерных
программ для контент-анализа
QDA Miner и WordStat
транскриптах 116 интервью
Междисциплинарный методологический семинар ИС РАН
20
Вопрос исследования
• Насколько превалирующие в России на макро-уровне
властные отношения близки к власти в ее чистом виде?
• Идеальный тип власти в ее чистом виде
характеризуется:
– Самодостаточностью (она находит обоснование в себе самой)
– Самоценностью (она является самой целью, а не средством
для достижения других целей)
– Преобладанием насильственных техник навязывания воли
(силы, угроз, манипулирования и так далее)
– Крайней асимметричностью в распределении прав и
обязанностей
– Отсутствием обратных связей
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
21
Измерение надежности: Триангуляция результатов
трех разновидностей контент-анализа
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
22
Случай 2: Контент-анализ в
подготовке обзора литературы
Для изучения возрастающей отдачи в
экономической литературе была
создана база данных англо- и
русскоязычных источников, пригодная
для обработки текстов с помощью
автоматизированных и программных
процедур качественного и
количественного контент-анализа
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
23
Источники формирования базы
данных по ключевым терминам
• Google и Яндекс
• База данных ресурса ideas.repec.org.
Библиотека RePEc (Исследовательские
работы по экономике)
• Сформированная в ходе проекта База
Данных по Возрастающей Отдаче (БД ВО)
включала в себя на конец 2011 г. 203
источника, из них 156 – на английском
языке и 47 – на русском языке.
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
24
Атрибуты документов
•
•
•
•
•
•
•
•
•
Автор и название
Год опубликования
Страна опубликования
Язык публикации
Экономическая школа
Уровень анализа
Метод исследования
Тип математической модели
Тип текста
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
25
Распределение источников по
году опубликования
Количество
текстов
Доля текстов в
БД ВО, %
До 1970
9
4.43
1971-1980
4
1.97
1981-1990
17
8.37
1991-2000
51
25.12
2001 – 2011
122
60.10
Год опубликования
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
26
Страна
опубликования
США
Великобритания
Россия
Китай
Австралия
Италия
Испания
Германия
Франция
Япония
Другие страны
27 мая 2013
Количество
текстов
74
34
26
12
8
8
8
7
4
4
18
Междисциплинарный методологический
семинар ИС РАН
Доля
текстов,
%
36.4
16.7
12.8
5.9
3.9
3.9
3.9
3.4
2.0
2.0
8.9
27
Школа
27 мая 2013
Количество
Доля
текстов
текстов, %
Неоклассическая
177
87.2
Марксистская
11
5.4
Австрийская
8
3.9
Несколько школ
7
3.5
Междисциплинарный методологический
семинар ИС РАН
28
Категории анализа
• Сферы возрастающей отдачи:
инфраструктура, сфера услуг, внешняя
торговля, отрасли высоких технологий,
информационная сфера
• Факторы возрастающей отдачи: экономия
от масштаба, образование и человеческий
капитал, инновации, институты и
менеджмент, сетевые эффекты и
инфрамаржинальная экономика, path
dependence
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
29
Случай 2: основные выводы
• Качественный анализ англо- и русскоязычных текстов показал
связи между факторами возрастающей отдачи, но не выявил
значимых связей между факторами и сферами возрастающей
отдачи.
• Количественный анализ был проведен раздельно для
русскоязычной и англоязычной литературы: выявлена ключевая
роль фактора экономии от масштаба.
• Для русскоязычной литературы была выявлена связь между сферой
высоких технологий и внедрением инноваций + ростом
образования и качества человеческого капитала.
• В англоязычной литературе выявлена аналогичная связь. Кроме
того, выделен кластер факторов возрастающей отдачи (кроме
эффекта от масштаба): внедрение инноваций, сетевые эффекты и
создания поддерживающих институтов с развитием менеджмента.
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
30
Случай 3: Изменения в статусе
российских ученых в 2000-е годы
• Лонгитюдное исследование, два этапа, 5 волн опросов
• 1999-2001 (1-4 волны), грант INTAS-97: 20 280, INTAS-97: 20
280,
• 2010 (5 волна), грант RCSF, LSE, (рук. С. Ашвин).
• Общая выборка 1999 – 250 респондентов, объединенных в
4 группы, основанные на специфичных стратегиях на
рынке труда в 4 российских городах
• Подвыборка – ученые института РАН естественнонаучного профиля – 23 респондента в 1999, 18
респондентов в 2010.
• Метод опроса – полуструктурированные интервью
(трудовые биографии)
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
31
• Качественный анализ в программе контент-анализа QDA
Miner
• Основная исследовательская задача – характеристики
изменений в социально-профессиональном статусе
ученых
• Изменения в статусе: Статус 6 человек повысился (защита
диссертации, продвижение, получение больших грантов,
премий, квартир для молодых ученых через программу
РАН)
• Статус 5 человек практически не изменился (изменился
незначительно)
• Статус 7 человек изменился (ушли в коммерческие
фирмы, другие сферы деятельности).
• Из 7 молодых ученых до 35 лет в 1999 г. Только 4 остались
работать в институте.
• Задача – выявить основные проблемы (ограничения) в
профессиональном развитии (оценке своего положения).
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
32
Количественное распределение
кодов во всех интервью
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
33
Оценки состояния науки в интервью
34
Случай 3: основные выводы
• Один из выводов исследования:
• Важный аспект изменения и перспектив статуса
профессиональной группы ученых зависит от их
собственной оценки перспектив науки в
обществе, объединения внешних и внутренних
условий для развития российской науки.
• Качественный анализ позволил выделить
структуру факторов, определяющих положение
ученых.
• Количественный анализ позволил определить,
какие из них особенно важны для респондентов..
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
35
Случай 3: основные выводы
• Один из выводов исследования:
• Важный аспект изменения и перспектив статуса
профессиональной группы ученых зависит от их
собственной оценки перспектив науки в
обществе, объединения внешних и внутренних
условий для развития российской науки.
• Качественный анализ позволил выделить
структуру факторов, определяющих положение
ученых.
• Количественный анализ позволил определить,
какие из них особенно важны для респондентов..
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
36
Случай 4: исследование
академического чтения
Объект
Объектом исследования
послужило чтение
научных текстов (статей,
эссе, глав в
коллективных
монографиях и рецензий
на книги), написанных
тремя ученымиобществоведами
27 мая 2013
Предмет
Предметом
исследования служат
различия в восприятии
57 текстов автором и
читателями-коллегами,
изученные с помощью
компьютерных
программ для контентанализа QDA Miner и
WordStat
Междисциплинарный методологический семинар ИС РАН
37
Этапы контент-анализа
Этап Содержание
1
Участники прочли все тексты и разработали свои книги кодов (списки качественных
кодов) независимо друг от друга. Для оценки надежности своего качественного
кодирования каждый участник создал словарь, основанный на замещении,
структура которого соответствовала его книге кодов. После выполнения трех видов
контент-анализа, расстояния между текстами в трех случаях, измеренные косинускоэффициентами, были кросс-коррелированы с помощью оригинального метода
триангуляции – для проверки надежности качественного кодирования
2
Участники после серии совместных обсуждений создали общую книгу кодов.
Общая книга содержит 37 кодов (15 - для текстов А, 9 - для текстов B, 13 - для
текстов С). Коды для текстов А были применены только к текстам А, и т.д. Затем
участники перекодировали тексты по согласованным качественным кодам, но
независимо друг от друга. Результаты трех типов контент-анализа – для каждого
участника в отдельности и для всех четырех в целом – были кросс-коррелированы.
Рассчитаны коэффициенты согласия между кодировщиками
3
37 кодов были применены ко всем текстам. Например, коды для текстов А были
использованы для контент-анализа не только текстов А, но и B и C. Могут ли коды,
соответствующие идеям одного автора, служить основой для интерпретации идей
других авторов? Результаты трех типов контент-анализа были кросс38
коррелированы и были рассчитаны коэффициенты согласия между кодировщиками
Основные вопросы пилотного
исследования-1
1. Если представленные в тексте авторские идеи
хорошо известны читателю, кто различает их
лучше – автор текста или читатель?
2. Кто точнее интерпретирует текст автора- он
сам или читатели?
3. Кто способен увидеть больше смыслов в
тексте - его автор или читатели?
4. Является ли бесконечным число
интерпретаций авторского текста читателями
и насколько они искажают авторский
замысел?
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
39
Основные вопросы пилотного
исследования -2
5. В каком случае замысел автора более
понятен читателям – при написании им
статьи стандартного формата или в более
свободном тексте?
6. Есть ли разница результатов
поверхностного и глубокого чтения и в
чем она выражается?
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
40
Глубина чтения
Автор А (N=20 [8*])
B (N=17 [13])
Читатель (Кодировщик)
Коды
Сегменты Коды Сегменты
1-й этап A
8
1863
17
1082
B
57
1123
35
540
C
30
1089
16
712
D
19
593
11
681
Среднее (читатели)
35
935
14,7
825
2-й этап A
15
433
9
244
B
15
616.
9
301
C
15
580
9
384
D
15
527
9
399
Среднее (читатели)
15
574,3
9
342,3
eLibrary
6
10 [16**]
6
22 [29]
C (N=20 [11])
Коды
Сегменты
18
1509
55
836
24
712
14
688
29
1011
13
283
13
376
13
333
13
366
13
341,7
5
14 [34]
Количество кодов автора и читателя в их отдельных книгах кодов, а также количество
фрагментов, закодированных на 1-м этапе (использование индивидуальных книг
кодов), систематически превышали соответствующие показатели на 2-м этапе (общая
книга кодов). Судя по количеству содержательных ссылок на работы авторов А, B и C,
цитирующие их российские читатели интерпретировали эти тексты еще более узко
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
41
Двухмерный график совместной
встречаемости кодов, тексты С.Г. Кирдиной
Легенда: Stress=0.16656, R?=0.8913
27 мая 2013
Междисциплинарный методологический
семинар ИС РАН
42
Два подхода к измерению надежности
Показатели
2-й этап
3-й этап
α (N=37)
S (N=37)
r (N=57)
α (N=37)
S (N=37)
r (N=37)
r (N=57)
A+C
0.575
0.820
0.908
0.412
0.640
0.818
0.774
C+B
0.535
0.802
0.949
0.436
0.679
0.934
0.909
C+D
0.555
0.812
0.869
0.434
0.698
0.957
0.674
A+B
0.544
0.813
0.833
0.423
0.653
0.848
0.656
A+D
0.519
0.811
0.755
0.404
0.666
0.873
0.534
B+D
0.496
0.797
0.831
0.399
0.687
0.937
0.721
0.537
0.809
0.858
0.418
0.671
0.895
0.711
C+A+B
0.465
0.590
-
0.289
0.365
-
-
C+A+D
0.465
0.590
-
0.286
0.375
-
-
A+D+B
0.432
0.574
-
0.278
0.371
-
-
C+B+D
0.440
0.570
-
0.299
0.398
-
-
0.4505
0.581
-
0.288
0.377
-
-
0.367
0.420
-
0.208
0.245
-
Кодировщики
Среднее
Cреднее
A+B+C+D
43
-
Дополнительные источники
Олейник А.Н. «Триангуляция в контент-анализе: пример
углубленных интервью с представителями российской
элиты», Вестник общественного мнения: данные,
анализ, дискуссии, №3 (95), 2008, с. 62-75
Олейник А.Н. «Триангуляция в контент анализе:
вопросы методологии и эмпирийная проверка», СОЦИС
– Социологические Исследования, 2, 2009, c. 65-79
Олейник А.Н., Кирдина С.Г., Попова И.П., Шаталова Т.В.
«Как ученые читают друг друга: основы теории
академического чтения и ее эмпирическая проверка»,
СОЦИС, 8, 2013
27 мая 2013
Междисциплинарный методологический семинар ИС РАН
44