PPTX, 1.7MB - Проблемы современных информационно

Transcript PPTX, 1.7MB - Проблемы современных информационно

Научный семинар «Проблемы современных информационно-вычислительных систем»
под руководством д. ф.-м. н., проф. В. А. Васенина
Использование нумерации Геделя в задачах
разграничения доступа к информационным
ресурсам
Илья Солдатихин.
СПБГПУ ЦНИИ РТК
Кафедра «Телематика»
[email protected]
МГУ имени М. В. Ломоносова
2012
Содержание
•
•
•
Прикладная задача разграничения доступа
Научная идея использования нумерации Геделя
Способ алгоритмической реализации разграничения доступа с
помощью систем логических уравнений
2
Задача разграничения доступа к
сетевым ресурсам
Актуальность
 Широкое распространение сетей на основе стека протоколов
TCP/IP
 Защита ресурсов IP-сетей от несанкционированного доступа и
удалённых деструктивных воздействий
 Ограничение обращений пользователей к нежелательным
сетевым ресурсам
Проблемы
 Задача непрерывной и корректной классификации соединений
 Определение намерений пользователей, прогнозирование
 Контентный анализ информационных ресурсов
3
Понятие информационного ресурса
Информационные ресурсы - отдельные документы или отдельные
массивы документов, документы или массивы документов в
информационных системах (библиотеках, архивах, фондах,
банках данных, других информационных системах»
Закон РФ «Об информации, информатизации и
защите информации», принятый
Государственной Думой 25 января 1995 года
Сетевые информационные ресурсы – web сайты, сервисы.
Если мы работаем в середине сети, у нас нет доступа к анализу
ресурса.
Вместо этого анализируем контент виртуальных соединений от
ресурса.
4
Виртуальные соединения в сетях
передачи данных
В задаче разграничения доступа виртуальное соединение (ВС) –
информационное взаимодействие сетевых приложений, выполняющихся на
различных узлах сети, посредством формирования одного- или
двунаправленного потока IP-пакетов.
Информационное виртуальное соединения (ИВС) - определяет
седержимое информационного обмена,
Технологические виртуальные соединения (ТВС) –обеспечивают
процедуру упорядоченной передачи данных для ИВС
ТВС - IP-адреса, номер порта, номер протокола, пропускная способность
ИВС - контент предаваемых данных.
5
6
Формализация описания
vi – информационное виртуальное соединение,
ИВС
Технологическое соединение
ИВС
vi  {vt i },i  1,N,
{
ИВС
Технологическое соединение
Технологическое соединение
***
Технологическое соединение
где vt – технологическое виртуальное соединение
ИВС может содержать одно или несколько ТВС
}
ИВС
Задача контентной фильтрации
Контентная фильтрация – фильтрация трафика на основе анализа
содержимого передаваемых данных
Особенность контентного анализа – передаваемое содержимое
может меняться на всем времени сетевого взаимодействия
Под контентом понимается смысловая характеристика, выраженная в
понятном для интерпретации виде. Контент рассматривается как
совокупность понятий, характеризующих смысл передаваемых
данных.
При этом встает задача интерпретации контента в зависимости от
действующей политики информационной безопасности. Невозможно
говорить об однозначной “опасности” или “безопасности” соединения
на основе контентного анализа
7
Рассматриваемая область
В рамках работы мы сужаем рассматриваемую область анализом
текстового контента web-ресурсов, так как задачи контентного анализа
других типов данных (видео, аудио, изображения) требуют
значительно более сложных алгоритмов и сложно реализуемы в
классических устройствах защиты информации.
Контент ресурса определяется на основе анализа содержимого
текстовых документов.
ИВС – совокупность http соединений
ТВС – соединения транспортного уровня, обслуживающие данные http
соединения
8
Пример
Доступ к новостному сайту ученика 7а Пети Иванова
http://ria.ru - разные виды статей, разные рубрики, разный вид данных
Что опасно, что безопасно в соответствии с политикой информационной
безопасности?
9
Открытые вопросы задачи контентного
анализа и фильтрации
Проблемные вопросы контентного анализа
 Анализ зависит от выбранных правил интерпретации
 Процесс анализа и принятия решения о безопасности не
формализован должным образом, - не позволяет использовать
алгоритмы автоматической генерации правил фильтрации для
СЗИ
 Оценка безопасности может меняться в процессе сетевого
взаимодействия, не знаем мотивы действий пользователя
 Говорить о 100% безопасности виртуального соединения на
основе анализа его контента можно только постфактум, получив
все данные (необходимо введение вероятностного подхода к
анализу)
10
Основания для ведения исследований
 Необходим вероятностный подход к определению степени
безопасности виртуальных соединений на основании анализа
контента
 Для автоматизации процесса обеспечения безопасности
необходимо предложить форму представления контента в виде
численного эквивалента для алгоритмизации применения правил
фильтрации для СЗИ
 Необходимо разработать механизм применения правил
фильтрации в СЗИ на основании вероятностной оценки угроз
виртуальных соединений и заданной политики безопасности
11
Цель и задачи исследований
12
Целью является разработка и совершенствование методов и средств
разграничения доступа в IP-сетях на основе контентного анализа
виртуальных соединений
Задачи:
•
Формализовать процесс анализа и принятия решения о
безопасности сетевого соединения на основании оценки
передаваемого содержимого
•
Разработать методику оценки вероятности угрозы сетевого
соединения в зависимости от контента виртуального соединения
•
Разработать механизм применения правил фильтрации на основе
вероятностной оценки угроз виртуального соединения
Понятие контента
Контент – смысловая характеристика ИВС, выраженная в понятном
для интерпретации виде (в рассматриваемом ограничении текстовые
последовательности)
Значение контента зависит от правил интерпретации (онтология)
S – содержимое (данные, текст); O – выбранная онтология
13
Пример неоднозначности определения
контента
Доступ Пети Иванова из 7а к сайту navalny.ru
Что это? Политика, экономика, экстремизм? – Как трактовать?
14
;
Подход к семантическому анализу на основе
использования онтологии
Получения контента из данных осуществляется в зависимости от
выбранной онтологии.
 онтология это система, состоящая из набора понятий и набора
утверждений об этих понятиях, на основе которых можно строить
классы, объекты, отношения
Онтологию можно определить как множество
где:
словарь терминов предметной области
термин
рейтинг термина относительно других терминов в категории
функция интерпретации терминов
функция интерпретации категорий
отношения иерархии между категориями в онтологии
15
;
16
Пример простейшей онтологии
Словарь терминов
МГУ
Путин
Аль Каида
FIFA 2012
……
….
интерпретация
Категории
Политика
Экономика
Юриспруденция
Наука
…..
…..
Терроризм
Игры
Спорт
Термин может принадлежать нескольким категориям. Вероятность
можно рассчитывать в соответствии с % принадлежности терминов к
категории к общему числу терминов в статье и их весам
Контент как принадлежность к
категориям
Контент передаваемых данных рассматривается как совокупность
принадлежностей передаваемого содержимого к некоторым
категориям
На основе существующих алгоритмов категоризации,
принадлежность данных к категории зависит от выбранной онтологии
и определяется с некоторой вероятностью
K ∈ {C1, . . Cn}
Используются существующие подходы семантического анализа
текста, рейтинговые системы поиска, тематическое разграничение
доступа, оценки достоверности.
СПбГПУ - кафедра “Информационная безопасность компьютерных
систем” Зегжда Дмитрий Петрович, Баранов Юрий Александрович
17
Пример неоднозначности определения
категорий
Политика – p1 Спорт – p2 Экстримизм– p3
18
Представление контента
Текст – не понятен машине, как интерпретировать?
Что такое хорошо, что такое плохо?
Необходимо перевести понятие контента в
вычислительную область
Задача – выразить контент числом, над которым можно проводить
операции (например сравнения)
Выражение текста числом – задача кодирования
19
Нумерация Геделя
Теоремы о неполноте и противоречивости
ситемы
“Любая формальная система аксиом
содержит неразрешенные
предположения" или "если система аксиом
полна, то она противоречива”.
"Логическая полнота (или неполнота) любой
системы аксиом не может быть доказана в
рамках этой системы”
В рамках доказательства Гедель предложил кодировать алфавит
системы простыми натуральными числами.
Тогда любому тексту в рамках принятого алфавита можно
поставить в соответствие число, полученное в результате
перемножения геделевских номеров элементов текста.
20
Кодирование принадлежности к категориям
Тогда можно принять за алфавит системы – принадлежность
контента к категориям.
Принадлежности к категории ставим в соответствие простое число
(2, 3, 5, 7, 11 и тд)
Контент ИВС единообразным способом кодируется произведением
гёделевских номеров соответствующих категорий
Для учета вероятностной специфики принадлежности контента к
категории вводим понятие интервал вероятности
принадлежности, значение которого кодируется степенью
геделевского числа (Пример: 100-75% - 1 интервал, 75-45% - 2
интервал, 45-30% - 3 интервал, 30-20% - 4 интервал, 20-10 – 5
интервал, <10% - 0 интервал)
21
Пример кодирования категорий
Политика
G=2
Экономика
G=3
22
Экстремизм
Порнография
G=5
G=7
Кодирование принадлежности к категориям
1) Категории ставим в соответствие геделевский номер
2) Вероятностные интервалы принадлежности pi содержимого ИВС
к рассматриваемой категории кодируются натуральными
числами
Контент ИВС единообразным способом кодируется произведением
гёделевских номеров соответствующих категорий
23
Пример кодирования
24
Доступ Пети Иванова из 7а к сайту navalny.ru
Политика – 80% G = 2 pi=1
Экономика – 50% G = 3 pi=2
Экстремизм– 5% G = 5 pi=0
G=2*3*3=18
100-75% - 1 интервал, 75-50% - 2 интервал, 50-30% - 3 интервал,
30-20% - 4 интервал, 20-10 – 5 интервал, <10% - 0 интервал
Задача контентного анализа при
использовании нумерации геделя
Задача контентного анализа сводится к построению геделевского номера
G, кодирующего контент ИВС, а задача обеспечения безопасности – к
поиску в этом числе закодированных запрещенных абстракций, наличие
которых определяется делимостью G на геделевский номер абстракции.
25
Особенности использования
нумерации Гёделя для кодирования
1)контента
Наличие вероятностного подхода к кодированию
принадлежности контента, что позволяет более гибко
определить политику ИБ
2) Номера могут формироваться при получении части контента, при
этом у системы появляется возможность прогнозирования
опасности соединения
3) Появляется возможность численного сравнения
информационных ресурсов по контенту (путем нахождения
наибольшего общего делителя)
4) Возможность поиска в контенте совокупности запрещенных
категорий контента
(Пример – запрещаю сайты порнография (7) с границей> 30% и
политика (2) с границей>50% - проверка: делится ли геделевское
число контента на 7*2, но не делится на 16 и на 27)
26
Система обеспечения информационной
безопасности на основе геделевских номеров
Анализ угроз информационной безопасности происходит на
уровне ИВС
Механизм обеспечения информационной безопасности действует
на уровне ТВС – задается правилами фильтрации.
27
Система контентного анализа
Тенденции:
- Большие скорости и объемы передачи данных
- Необходимость оперативного контроля и управления
- Принятие решения и действия на основе прогноза угрозы
соединения
Проблема:
Интеллектуальные МСЭ не производительны при
скоростях от 1Гбит/сек
Но:
Виртуальные соединения не имеют разделяемых
ресурсов, возможна их параллельная обработка.
Можно выносить интеллектуальные фукции в отдельную
многопроцессорную систему
28
Иерархическая модель отображения требований
политики разграничения доступа
Уровни
модели
I
II
Модели процессов доступа
Модели информационных
виртуальных соединений
(ИВС)
Модели технологических
виртуальных соединений
(ТВС)
III
Шаблоны запрещенных и
незапрещенных пакетов
Априорные
данные о
субъекте и
объекте доступа
Модели
состояний
протоколов
взаимодействия
Требования политики
разграничения доступа
Политика разграничения
доступа
Стандартные
параметры
протоколов
взаимодействия
Преимущества предлагаемого метода формализации:
• Декомпозиция процесса формализации требований политики
разграничения доступа на несколько последовательных этапов
• Использование априорных данных в сочетании с динамическими моделями
состояний, учитывающих системные свойства виртуальных соединений
29
Примеры задания ПИБ
Задание политики информационной безопасности характеризуется
“описательным” подходом к формированию требований
 Закрыть для посещения экстремистские ресурсы
 Детям нельзя посещать ресурсы с категорией ‘порнография’
 Всей бухгалтерии кроме главного бухгалтера нельзя читать
политические ресурсы
 Студенты МГУ не должны посещать развлекательные сайты в
учебное время
30
Системы логических уравнений для категорий
Предлагается задание политики информационнной безопасности
происходит с помощью логических уравнений для каждой категории
принадлежности трафика. Субъекты доступа - пользователи,
объекты доступа - категории
C1
a1 v a2 v a3 = 0
a1 v a21 = 0
a1 ^ a32 v b3 = 0
a1 v a2 ^ a3 = 1
a1 ^ a2 ^ b3 = 1
a1 v b2 v a3 = 1
b1 v a2 v a3 = 0
a1 ^ a2 ^ a5 = 1
C2
…
a1 v a2 v a3 = 0
b1 v a2 ^ a3 = 1
a1 v a2 ^ a3 = 0
a1 v b2 v a3 = 1
a1 v a3 v b3 = 1
a1 v b4 v a3 = 0
a1 v a2 v b5 = 0
a1 v a2 v b3 = 0
Сn
b1 v c2 v a3 = 1
a4 v a2 ^ a3 = 0
a1 v a2 v a3 = 1
a7 v c2 ^ c3 = 1
a1 v a2 v a3 = 0
a1 ^ a6 v a3 = 1
c1 v c2 v a3 = 0
a1 v a2 v a3 = 0
a1, a2, .. b1, b2, … - субъекты доступа (школьники, класс 7а, отдел
бухгалтерии, )
0 или 1 – разрешать или запрещать взаимодействие
31
Системы логических уравнений для категорий
Но при новом подходе также учитываются вероятности принадлежности к
категориям! Вводятся весовые коэффициенты принадлежности контента
ИВС к категориям pi ∈ [0,1] как множетели к системам.
0 – полностью не принадлежит. 1 – принадлежит
piC1 X
piC2 X
x1a1 v x2a1 = max(x1,x2) a1
x1a1 ^ x2a1 = min(x1,x2) a1
piCn X
32
Пример решения системы логических уравнений
Требования:
Разрешить для всех школьников доступ к спортивным ресурсам
Запретить для всех школьников 7 параллели доступ к политическим
новостям
Запретить для учащихся класса 7а доступ к образовательным ресурсам на
время ЕГЭ
C1 – спорт(2)
a1 = 0
C2 – образование(3)
a1 ^ a2 ^ a3 = 1
С3 – политика (5)
a1 ^ a2 = 1
a1 – школьники
a2 – 7 класс
a3 – “а” классы
Ученик 7а Петя Иванов запрашивает новость на спортивном сайте
33
Пример решения системы логических уравнений
C1 – спорт(2)
a1 = 0
C2 – образование(3)
a1 ^ a2 ^ a3 = 1
С3 – политика (5)
a1 ^ a2 = 1
Загружается часть новости для
ученика 7а Пети Иванова
G=168750
G=2*3*3*3*3*5*5*5*5*5*5
образование 0.3
политика 0.2
100-75% - 1 интервал, 75-50% - 2 интервал, 50-30% - 3 интервал, 30-20% - 4
интервал, 20-10 – 5 интервал, <10% - 0 интервал
1C1 v 0.3С2 v 0.2C3 = 0.3 v 0.2 = 0.3
0.3 – степень опасности новости для Пети Иванова. Исходя из этого значения
выбирается действие фильтрации для ИВС
34
Алгоритм определения степени угрозы
ИВС для ПИБ
Последовательность шагов при фильтрации ИВС:
• определение принадлежностис пакета к ИВС,
• определение категорий принадлежности контента ИВС
• формирование общего уравнения фильтрации как минимизации
систем логических уравнений категорий
• определение степени угрозы ИВС
В итоге получаем число от [0,1], характеризующую опасность ИВС для
политики информационной безопасности – степень угрозы ИВС
Механизм обеспечения политики безопасности - фильтрации ТВС на
основе степени угрозы ИВС
35
Механизм обеспечения разграничения доступа для
СЗИ на основе степени угрозы ВС
1) Фильтрация по достижению граничного значения
(Пример >=0.5 – удаляем )
2) Управление пропускной способностью ТВС по
определенному алгоритму
Вырожденными случаями управления пропускной способностью ВС
являются случаи:
Пропускная способность ВС равна нулю – ВС полностью
запрещено
Пропускная способность ВС равна максимальной пропускной
способности среды передачи – ВС полностью разрешено
36
Понятие полезности трафика
Открываем сайт в браузере – анализ html
Текст - анализируем
Css
Javascript
Images
video
-
уменьшаем пропускную способность в
зависимости от степени угрозы
37
Итоги и направления исследований
• Разработан метод кодирования контента передаваемых данных
с использованием нумерации Геделя
• Разработана методика оценки вероятности угрозы сетевого
соединения в зависимости от контента виртуального
соединения
• Предложена методика обеспечения ПИБ путем задания и
решения систем логических уравнений с учетом вероятностной
оценки угроз ВС
Направления исследований кафедры:
- Исследование онтологических методов интерпретации текстовых
источников информации на предмет принадлежности к заданным
категориям
- Аппробация предложенных решений на МЭ ССПТ-2 в виде
отдельного пилотного проекта - модуля
- Исследование возможностей использования многопроцессорных
систем для построения системы анализа контента
38
Научный семинар «Проблемы современных информационно-вычислительных систем»
под руководством д. ф.-м. н., проф. В. А. Васенина
Спасибо за внимание
Илья Солдатихин
[email protected]
МГУ имени М. В. Ломоносова
2012

PPTX, 1.7MB - Проблемы современных информационно

Transcript PPTX, 1.7MB - Проблемы современных информационно

Directory