Не секрет, что многие разработчики программного обеспечения с открытым исходным кодом и не только, по разным причинам желают сохранить свою анонимность. Совсем недавно группа исследователей опубликовала работу, в которой описываются методы деанонимизации программиста по его стилю кодирования через анализ исходных кодов. Авторы утверждают, что им удалось достигнуть средней точности идентификации в 94%.
С помощью построения абстрактных синтаксических деревьев на основе разбора исходного текста, им удалось выделить устойчивые отличительные признаки при написании кода, которые трудно скрыть даже целенаправленно. Используя машинное обучение и набор эвристик, удалось добиться впечатляющей точности определения авторства среди выборки из 1600 программистов Google Code Jam.
В своей новой работе, исследователи продемонстрировали, что деанонимизация возможна и через анализ уже скомпилированных бинарных файлов в отсутствии исходных кодов (видео презентации доклада). В этот раз для исследования использовались исходные коды 600 участников Google Code Jam, которые были скомпилированы в исполняемые файлы, а потом подвергались разбору. Благодаря тому, что задания на соревнованиях были одинаковы для всех, разница файлов заключалась в значительной степени именно в стиле программирования, а не в алгоритме. Изначально, при сборке бинарных файлов отключались оптимизации компилятора и не применялась обфускация исходных кодов. Но, как утверждают авторы работы, некоторые отличительные признаки сохраняются и при применении этих способов сокрытия авторства, снижая точность деанонимизации до 65%.
С помощью дизассемблирования и декомпиляции, применяя все те же абстрактные синтаксические деревья, проводится анализ графа потока управления, выделяются отличительные признаки кодирования и производится обучение классификатора на основе векторов признаков.
Что интересно, было обнаружено, что боле профессиональные программисты гораздо легче могут быть деанонимизированы по сравнении с менее опытными коллегами, т.к. имеют более выраженный и индивидуальный стиль программирования.
Авторы уверены, что с помощью подобных методов когда-нибудь будут выявлены настоящие авторы таких разработок как Bitcoin, TrueCrypt, а также разработчики известных вредоносных программ.
Компания-разработчик программных решений и облачных услуг для задач обеспечения сетевой безопасности, мониторинга и автоматизации.
Более 700 000 малых и средних компаний по всему миру, включая несколько тысяч компаний в России, используют программы GFI Software для обеспечения безопасности своей сети и сокращения расходов на обслуживание ИТ.
www.GFI.comООО «АФИ Дистрибьюшн» — дистрибьютор решений для защиты и автоматизации компьютерных сетей в России, СНГ и Грузии.
Наши специалисты и партнеры-интеграторы помогут вам: проконсультируют, рассчитают проект, внедрят решения в сетях любых масштабов и обучат ваших сотрудников.
www.AFI-Distribution.ruСмольная ул., 24А, 1122
г. Москва, 125445, Россия
Телефон: 8 495 223 35 33
Телефон: 8 800 550 52 23
E-mail: info@gfi-software.ru