Технические науки
АЛГОРИТМ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ ОБРАБОТКИ ПЕРСОНАЛЬНЫХ ДАННЫХ
Маслова М. А. 1

1. ФГАОУ ВО «СевГУ»

Резюме:

В статье представлен алгоритм идентификации личности в информационных системах обработки персональных данных. Технология может решить две задачи: выполнять функцию идентификации физического лица до внедрения единого идентификатора граждан страны и помочь при первичном объединении накопленных баз данных при создании реестров населения. Алгоритм состоит из трех основных блоков: формирование массива «похожих» людей, использование нечеткого соответствия среди массива похожих людей и отработка исключительных ситуаций. Разработанный алгоритм позволяет выполнять функцию идентификации физического лица и при создании реестров населения может помочь при первичном объединении накопленных ведомственных баз данных; сохранить информационную целостность, а также снизить зашумленность данных, обусловленную наличием ошибок операторского ввода.

Ключевые слова: Идентификация личности, реквизит, вес, правило, функция релевантности, нечеткое соответствие, частота появления ошибки


Информационные системы и технологии в экономике и менеджменте

УДК 004.056.5

Маслова М. А.

ФГАОУ ВО «СевГУ»

 

АЛГОРИТМ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ ОБРАБОТКИ ПЕРСОНАЛЬНЫХ ДАННЫХ

 

Аннотация. В статье представлен алгоритм идентификации личности в информационных системах обработки персональных данных. Технология может решить две задачи: выполнять функцию идентификации физического лица до внедрения единого идентификатора граждан страны и помочь при первичном объединении накопленных баз данных при создании реестров населения. Алгоритм состоит из трех основных блоков: формирование массива «похожих» людей, использование нечеткого соответствия среди массива похожих людей и отработка исключительных ситуаций. Разработанный алгоритм позволяет выполнять функцию идентификации физического лица и при создании реестров населения может помочь при первичном объединении накопленных ведомственных баз данных; сохранить информационную целостность, а также снизить зашумленность данных, обусловленную наличием ошибок операторского ввода.

Ключевые слова: идентификация личности, реквизит, вес, правило, функция релевантности, нечеткое соответствие, частота появления ошибки.

 

Abstract. The article presents an identification algorithm in personal data processing systems. Technology can solve two problems: to carry out the function of identifying an individual prior to the introduction of a single identifier citizens and help during the initial merger accumulated databases when creating public registries. The algorithm consists of three main blocks: the formation of an array of "similar" people, the use of fuzzy matching among an array of people and development of similar exceptions. The developed algorithm allows to perform the function of identifying an individual, and to create public registries can help during the initial merger accumulated departmental databases; maintain the integrity of information and data to reduce noise pollution caused by the presence of operator input errors.

Key words: personal identification, props, weight, typically feature relevance, fuzzy matching, frequency of occurrence of errors.

 

ВВЕДЕНИЕ

Одной из задач информационных систем обработки персональных данных, при обмене информацией о личности является его однозначная идентификация [1]. Наиболее правильным решением был бы переход на использование единого идентификатора личности. Но в связи с тем, что сейчас не в каждой стране существует такой идентификатор, а задачу по идентификации нужно решать сегодня необходимо найти альтернативное решение данной проблемы. Одним из таких решений является идентификация физических лиц путем сравнения их основных реквизитов. Такое решение не всегда будет применимо при использовании простого сравнения реквизитов, так как по ряду причин реквизиты одного и того же человека, взятые из двух различных баз данных, могут не совпадать [2].

ЦЕЛЬ

Целью построения алгоритма идентификации личности в информационных системах обработки персональных данных является усовершенствования процесса идентификации и уменьшение ошибок в данных.

ОСНОВНАЯ ЧАСТЬ

В результате проведенного исследования состояния задачи однозначной идентификации личности готовой методики по такому виду идентификации найти не удалось [3, 4]. Но было найдено решение, позволяющее проводить идентификацию физических лиц в базе данных с максимальной точностью. В результате была создана технология, с применением которой может быть организован эффективный информационный обмен:

Технология может решить две задачи:

1. Выполнять функцию идентификации физического лица до внедрения единого идентификатора граждан страны;

2. Помочь при первичном объединении накопленных баз данных при создании реестров населения.

Алгоритм состоит из трех основных блоков:

1. Формирование массива «похожих» людей.

2. Использование нечеткого соответствия среди массива похожих людей.

3. Отработка исключительных ситуаций.

Схематично технологию показано на рис 1.

Рисунок1.jpg

Рис. 1. Схема технологии идентификации

 

Для того чтобы заставить алгоритм работать, необходимо провести подготовительные работы. Первое, что мы сделаем, введем понятие «вес». Вес – это условный коэффициент реквизита. Он зависит от полноты, достоверности и актуальности реквизита. Вес определяет значимость реквизита для идентификации. Для нашей задачи мы определим, что реквизит «ФИО» может обладать меньшей полнотой и достоверностью, чем реквизит «Адрес», и, соответственно, он будет иметь меньший «вес». Для этого дадим каждому реквизита свой «вес».

Далее введем понятие «правило». Правило – это сочетание реквизитов человека, по которым осуществляется поиск. Механизм поиска по правилам такой, что при поиске человека сравниваются только те реквизиты, которые указаны в правилах.

Теперь можно перейти к первому блоку алгоритма – формирование массива похожих людей, который формируется с использованием правил для выбора единственно верного человека из массива похожих людей, устанавливается порог идентификации. Он необходим для того, чтобы исключить человека, который не удовлетворяет условиям. Если порог преодолели более одного человека, то автоматизировано идентифицировать гражданина невозможно. Такая ситуация отрабатывается оператором. Следующим шагом технологии является выбор человека с применением функции релевантности.

Функция релевантности дает достаточно низкий показатель по имени – 46,5%. Это вызвано тем, что формула работает как и при сравнении адресов – при N = {1 ... 4}, но так как средняя длина реквизитов по клиенту меньше средней длины по адресам, составляющая формулы при N = 4 уменьшает общую релевантность. Из этого следует, что формулу целесообразнее использовать на диапазоне при {1 ... 3}. Второй доработкой является повышение релевантности в зависимости от расстояния Левенштейна между словами.

Таким образом, основой работы алгоритма идентификации плательщиков есть условие:

,                           (1)

где    pj(i) – элемент правила идентификации;

Ri – результат работы функции релевантности;

wi – вес реквизита;

Li – повышающий коэффициент рассчитан на основе расстояния Левенштейна между i-ми реквизитами;

kj – порог идентификации правила;

m – количество правил;

n – количество реквизитов, участвующих в сравнении.

Если (1) верно хотя бы для одного j, то реквизиты прошли идентификацию по правилу j, и считаются схожими.

Для определения количества ошибок, которые устраняются с применением нечеткого соответствия, был проведен расчет по формуле:

,                                                   (2)

где    m – количество реквизитов с ошибками;

n – общее число реквизитов;

P(A) – частота появления ошибки в реквизите.

ВЫВОДЫ

Разработанный алгоритм позволяет выполнять функцию идентификации физического лица и при создании реестров населения может помочь при первичном объединении накопленных ведомственных баз данных; сохранить информационную целостность, а также снизить зашумленность данных, обусловленную наличием ошибок операторского ввода.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1.       Мельников Д.А. Информационные процессы в компьютерных сетях. М.: Кудиц-Образ, 2012. 256 с.

2.       Борисов М. А., Заводцев И. В., Чижов И. В. Основы программно-аппаратной защиты информации. М.: Книжный дом «ЛИБРОКОМ», 2012. 376 с.

3.       Гафнер В.В. Информационная безопасность: учеб. пособие. Ростов на Дону: Феникс, 2010. 324 с.

4.       Герасименко В. А. Защита информации в автоматизированных системах обработки данных. М.: Энергоатомиздат, 2014. 424 с.


Библиографическая ссылка

Маслова М. А. АЛГОРИТМ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ ОБРАБОТКИ ПЕРСОНАЛЬНЫХ ДАННЫХ // . – . – № ;
URL: istmu2016.csrae.ru/ru/0-45 (дата обращения: 04.05.2024).


Код для вставки на сайт или в блог

Просмотры статьи

Сегодня: 365 | За неделю: 365 | Всего: 365


Комментарии (0)