Технические науки
СИСТЕМА ИДЕНТИФИКАЦИИ ПОРОДЫ ДРЕВЕСИНЫ ПО РАМАНОВСКИМ СПЕКТРАМ
Кострин Д.К. 1, Ухов А.А. 1, Герасимов В.А. 1, Селиванов Л.М. 1, Симон В.А. 1, Гурович А.М. 2, Пальцев А.В. 2, Стученков А.Б. 2

1. Санкт-Петербургский государственный электротехнический университет "ЛЭТИ" им. В. И. Ульянова (Ленина)
2. Научно-производственный центр "Инновационная техника и технологии"

Резюме:

В работе рассмотрен алгоритм идентификации породы древесины по рамановским спектрам. На предварительном этапе требуется обработка спектров, включающая в себя сглаживание, вычитание базовой линии и нормализацию. Моделирование базовой линии производится либо полиномом фиксированного порядка, либо вейвлет-функциями различных типов. В основе анализа лежит применение метода главных компонент, качество работы которого зависит от количества выбранных компонент. После его применения и понижения размерности исходных данных используется способ классификации, основанный на линейном дискриминантном анализе. Реализованная система обработки и анализа рамановских спектров позволяет выполнять их идентификацию с вероятностью около 90 %.

Ключевые слова: линейный дискриминантный анализ, метод главных компонент, вейвлет-функция, Алгоритм идентификации


Интеллектуальные системы и технологии

УДК 519.254

Кострин Д. К., Ухов А. А., канд. техн. наук, доц.

Герасимов В. А., Селиванов Л. М., Симон В. А., асс.

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В. И. Ульянова (Ленина)

Гурович А. М., канд. техн. наук, директор по науке

Пальцев А. В., Стученков А. Б., научн. сотр.

Научно-производственный центр «Инновационная техника и технологии»

 

СИСТЕМА ИДЕНТИФИКАЦИИ ПОРОДЫ ДРЕВЕСИНЫ
ПО РАМАНОВСКИМ СПЕКТРАМ

 

В работе рассмотрен алгоритм идентификации породы древесины по рамановским спектрам. На предварительном этапе требуется обработка спектров, включающая в себя сглаживание, вычитание базовой линии и нормализацию. Моделирование базовой линии производится либо полиномом фиксированного порядка, либо вейвлет-функциями различных типов. В основе анализа лежит применение метода главных компонент, качество работы которого зависит от количества выбранных компонент. После его применения и понижения размерности исходных данных используется способ классификации, основанный на линейном дискриминантном анализе. Реализованная система обработки и анализа рамановских спектров позволяет выполнять их идентификацию с вероятностью около 90 %.

Алгоритм идентификации, вейвлет-функция, метод главных компонент,  линейный дискриминантный анализ.

The paper discusses the algorithm for the identification of wood species by Raman spectra. At the preliminary stage processing of the spectra including smoothing, baseline subtraction and normalization is needed. Modeling of the baseline is performed either by a polynomial of fixed order or by wavelet functions of different types. The analysis is based on the application of the method of principal components, the quality of which depends on the number of the selected components. After application of the method and decrease of the source data dimensions a classification method based on linear discriminant analysis is used. The implemented system of processing and analysis of Raman spectra allows identification with a probability of about 90 %.

Identification algorithm, wavelet function, principal component analysis, linear discriminant analysis.

 

Для идентификации сложных объектов, таких как древесина, требуются приборы и методы, позволяющие получать и обрабатывать рамановские спектры комбинационного рассеяния. Целью данной работы является разработка системы обработки и анализа таких спектров.

После получения спектра необходимо провести обработку данных, позволяющую корректно проводить их дальнейший анализ. Обработка, применяемая в данной работе, характерна для рамановских спектров и включает в себя три этапа: сглаживание, вычитание базовой линии и нормализация.

Для уменьшения шумового эффекта можно использовать один из алгоритмов сглаживания или их комбинацию. Авторами реализовано четыре алгоритма: скользящее среднее, экспоненциальное сглаживание, медианный фильтр, а также сглаживание по алгоритму Савицкого–Голея [1]. Последний вид сглаживания особенно эффективен для обработки спектральных данных.

Рамановские спектры практически всегда содержат эффект люминесценции, что значительно затрудняет анализ спектров и требует программного устранения. Задача решается нахождением базового фона (базовой линии) на графике спектра с последующим его вычитанием из основного спектра. Перспективно применение двух подходов: моделирование базовой линии полиномом фиксированного порядка с возможной оценкой качества приближения путем минимизации назначенной функции стоимости [2], а также моделирование базовой линии вейвлет-функциями различных типов.

Было реализовано два алгоритма: простой алгоритм, основанный на подборе параметров вейвлет-функций, использующий в качестве исходных вейвлет Добеши 10 или дискретный вейвлет Мейера [3], а также более сложный и качественный алгоритм, основанный на предварительном поиске пиков, использующий в качестве базового вейвлет «мексиканская шляпа» [4]. На рис. 1 показан спектр с вычисленной для него базовой линией, моделируемой полиномом 11 порядка). В нижней части рисунка показан результат вычитания базовой линии.

Рис. 1. Вычитание базовой линии

Рис. 2. Нормализация спектров

После вычитания базовой линии спектры необходимо нормализовать, чтобы в дальнейшем, при решении задачи идентификации, оценивать относительное влияние отдельных признаков (интенсивности спектров на различных длинах волн) в составе общего спектрального измерения. В системе реализовано три способа нормализации: нормализация по максимуму, по площади под кривой спектра и по Евклидовой норме (рис. 2).

Формально задача идентификации спектров является задачей классификации, то есть требует обучения на подготовленной выборке спектров. Классификация производится по набору спектров, соответствующему нескольким измерениям одного вещества. Важным условием корректной идентификации является соответствие методов и параметров предварительной обработки, как для идентифицируемых спектров, так и для спектров обучающей выборки.

В основе анализа лежит применение метода главных компонент [5], позволяющего методами линейной алгебры выявить в большом наборе данных относительно небольшое число параметров, достаточно точно характеризующих каждый из элементов набора. При этом с одной стороны, удается достичь уменьшения размерности обрабатываемых данных, а с другой стороны, такое решение позволяет избавиться от незначительных «шумовых» эффектов, присутствующих в исходных данных, что также повышает качество дальнейшей обработки. В современных алгоритмах расчета метод основан на получении сингулярного разложения матрицы исходных данных (размерность: количество спектров на количество точек), который, в свою очередь, связан с получением собственных чисел матрицы. Качество работы метода зависит от количества выбранных компонент, подбираемого практически. Опыт, полученный при обработке спектров древесины, показывает, что оптимальное число главных компонент, лежит в пределах от 11 до 14 (вместо исходных 512 точек).

После применения метода главных компонент и понижения размерности исходных данных используется способ классификации, основанный на линейном дискриминантном анализе [6]. Этот метод позволяет строить такие линейные комбинации признаков, которые максимально полно выделяют отличия между объектами из разных групп и, в тоже время, минимизируют разницу между объектами из одной группы. Математически идея метода основана на подборе коэффициентов, максимизирующих дисперсию средних элементов классов и минимизирующих дисперсию внутри классов (критерий Фишера).

Настройка коэффициентов для разложения ведется на матрице, строками которой являются измерения (спектры), а столбцами – главные компоненты каждого измерения, полученные в результате анализа. Итоговым результатом анализа являются: матрица коэффициентов, проецирующая исходные (обучающие) данные в пространство с максимальным соотношением различий между классами к внутриклассовым различиям, а также набор однотипных линейных функций с различными коэффициентами (линейные дискриминантные функции), каждая из которых построена для отдельного класса и зависит от среднего значения класса и матрицы ковариаций его элементов.

Решение задачи классификации реализуется следующей последовательностью шагов. После предварительной обработки спектр преобразуется в пространство главных компонент (для чего вектор, соответствующий спектру, умножается на матрицу нагрузок в разложении обучающей выборки). Полученный вектор главных компонент проецируется в пространство (представление) разложения (для чего умножаем вектор на проецирующую матрицу, полученную в результате анализа). Для принятия решения о принадлежности построенного вектора тому или иному классу следует подставить этот вектор в соответствующую этому классу линейную дискриминантную функцию. Результатом подстановки является скалярное значение, связанное с вероятностью принадлежности элемента данному классу (чем больше значение функции, тем выше вероятность того, что исследуемый спектр относится к соответствующему ей классу). Вычислив значения дискриминантных функций для всех классов, выбираем класс, для которого результат вычисления был максимальным.

Разработанная система обработки и анализа рамановских спектров позволяют выполнять их идентификацию с вероятностью около 90 %.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Savitzky A., Golay M.J.E. Smoothing and Differentiation of Data by Simplified Least Squares Procedures // Analytical Chemistry. 1964. V. 36. P. 1627–1639.

2. Mazet V., Carteret C., Brie D., Idier J., Humbert B. Background removal from spectra by designing and minimising a non-quadratic cost function // Chemometrics and intelligent laboratory systems. 2005. V. 76. №2. P. 121–133.

3. Galloway C.M., Le Ru E.C., Etchegoin P. G. An iterative algorithm for background removal in spectroscopy by wavelet transforms // Applied Spectroscopy. 2009. V. 63. №12. P. 1370–1376.

4. Zhang Z.-M., Chen S., Liang Y.-Z., Liu Z.-X., Zhang Q.-M., Ding L.-X., Yec F., Zhou H. An intelligent background-correction algorithm for highly fluorescent samples in Raman spectroscopy // Journal of Raman Spectroscopy. 2010. V. 41. №6.
P. 659–669.

5. Jolliffe I.T. Principal Component Analysis. New York: Springer, 1986. 487 p.

6. Rao R.C. The utilization of multiple measurements in problems of biological classification // Journal of the Royal Statistical Society. 1948. V. 10. №2. P. 159–203. 


Библиографическая ссылка

Кострин Д.К., Ухов А.А., Герасимов В.А., Селиванов Л.М., Симон В.А., Гурович А.М., Пальцев А.В., Стученков А.Б. СИСТЕМА ИДЕНТИФИКАЦИИ ПОРОДЫ ДРЕВЕСИНЫ ПО РАМАНОВСКИМ СПЕКТРАМ // . – . – № ;
URL: istmu2016.csrae.ru/ru/0-1 (дата обращения: 04.05.2024).


Код для вставки на сайт или в блог

Просмотры статьи

Сегодня: 483 | За неделю: 483 | Всего: 483


Комментарии (0)