С Алиной мы познакомились случайно, когда готовились к репортажу о III областной открытой конференции для школьников 1-4 классов «Фестиваль науки», которая проходила 9 февраля в ее родном Самарском лицее информационных технологий (СамЛИТ). Заместитель директора лицея по науке Светлана Анисимова и заведующая кафедрой начального образования Ирина Кузнецова рассказали, что вот уже 15 лет подряд лицеисты участвуют и побеждают в Рождественском фестивале-конференции «Юный исследователь». Его проводит Малая академия наук «Интеллект будущего» в Подмосковье. В этом году 14-17 января на 20-м юбилейном фестивале собрались более 250 юных исследователей из самых разных регионов, от Нижнего Тагила и Салехарда до Перми и Череповца.
Из десяти научных секций в семи дипломы «Лучшая работа по секции» жюри присудило воспитанникам СамЛИТа, и они заслуженно увезли в Самару очередной Кубок победителя.
![](https://static.mk.ru/upload/entities/2025/02/17/11/articlesImages/image/42/23/f1/cf/eae673a2beac4b8ddb4985031efcf9d6.jpg)
Одной из таких лучших работ в секции «Информатика и программирование» стала разработка Алины Трубиной по теме «Применение основных методов обучения систем компьютерного зрения для распознавания рукописного текста». «МК в Самаре» попросил ее рассказать, почему она выбрала такую тему и как ее работа может помочь нам в повседневной жизни.
- У меня у самой непонятный почерк, я пишу смесью печатных и прописных букв. Разобрать их сложно учителям и одноклассникам, - рассказала Алина. – После четвертого класса я прошла тестовые испытания и перешла в лицей. Было на выбор две специальности – история и информатика. Я решила выбрать информатику. А саму разработку я начала на каникулах, в конце лета. Самым сложным было написать код на Питоне. Там было много разных вариантов, которые мы в школе не проходили, приходилось самостоятельно разбираться с помощью официальных сайтов по языкам программирования.
Моя система пока разбирает только цифры, я обучила ее на сорока двух тысячах изображений. В качестве данных для решения задачи я использовала готовые изображения из базы данных MNIST – доступный всем набор данных для проверки качества алгоритмов компьютерного зрения. Теперь любой человек может написать набор цифр, а моя программа с точностью распознавания 98-99% переведет их электронный вид.
![](https://static.mk.ru/upload/entities/2025/02/17/11/articlesImages/image/53/91/c8/a9/40b93932f30e3b278d59f846d9b5a56e.jpg)
На следующем этапе я хочу научить её разбирать рукописные буквы. В нашем алфавите 33 буквы, значит, для обучения потребуется в три раза больше изображений. А чтобы разбирать медицинские диагнозы и рецепты, нужно обучить искусственный интеллект и кириллице, и латинице. Когда я решу эту задачу, думаю, программа будет очень полезной и в школе, и в медицине – для распознавания рецептов, расшифровки записей в медицинских карточках, и еще много где. Но чтобы обучить искусственный интеллект по методу «с учителем», то есть, когда он распознает информацию, а ты оцениваешь, верно или неверно он расшифровал данные, уйдет несколько лет. Поэтому сейчас моя главная проблема – найти достаточное количество оцифрованных и переведенных в двоичный код рукописных записей для машинного обучения. Ведь если для десяти цифр понадобилось 42 000 изображений, то для двух алфавитов их нужно сотни тысяч.
Если кто-то может подсказать Алине, где взять такие готовые оцифрованные массивы данных – пишите в редакцию «МК в Самаре» на электронную почту редакции mkvsamare@yandex.ru
А мы передадим информацию юной исследовательнице.