Самарская шестиклассница учит искусственный интеллект разбирать почерк врачей

Ученица СамЛИТа Алина Трубина обучает искусственный интеллект расшифровывать неразборчивые рукописные записи

Ученица СамЛИТа Алина Трубина обучает искусственный интеллект расшифровывать неразборчивые рукописные записи
Алина Трубина | Фото Николая Ирдуллина

С Алиной мы познакомились случайно, когда готовились к репортажу о III областной открытой конференции для школьников 1-4 классов «Фестиваль науки», которая проходила 9 февраля в ее родном Самарском лицее информационных технологий (СамЛИТ). Заместитель директора лицея по науке Светлана Анисимова и заведующая кафедрой начального образования Ирина Кузнецова рассказали, что вот уже 15 лет подряд лицеисты участвуют и побеждают в Рождественском фестивале-конференции «Юный исследователь». Его проводит Малая академия наук «Интеллект будущего» в Подмосковье. В этом году 14-17 января на 20-м юбилейном фестивале собрались более 250 юных исследователей из самых разных регионов, от Нижнего Тагила и Салехарда до Перми и Череповца.

Из десяти научных секций в семи дипломы «Лучшая работа по секции» жюри присудило воспитанникам СамЛИТа, и они заслуженно увезли в Самару очередной Кубок победителя. 

Кубок победителя Рождественского фестиваля-конференции «Юный исследователь»

Одной из таких лучших работ в секции «Информатика и программирование» стала разработка Алины Трубиной по теме «Применение основных методов обучения систем компьютерного зрения для распознавания рукописного текста». «МК в Самаре» попросил ее рассказать, почему она выбрала такую тему и как ее работа может помочь нам в повседневной жизни.

- У меня у самой непонятный почерк, я пишу смесью печатных и прописных букв. Разобрать их сложно учителям и одноклассникам, - рассказала Алина. – После четвертого класса я прошла тестовые испытания и перешла в лицей. Было на выбор две специальности – история и информатика. Я решила выбрать информатику. А саму разработку я начала на каникулах, в конце лета. Самым сложным было написать код на Питоне. Там было много разных вариантов, которые мы в школе не проходили, приходилось самостоятельно разбираться с помощью официальных сайтов по языкам программирования.

Моя система пока разбирает только цифры, я обучила ее на сорока двух тысячах изображений. В качестве данных для решения задачи я использовала готовые изображения из базы данных MNIST – доступный всем набор данных для проверки качества алгоритмов компьютерного зрения. Теперь любой человек может написать набор цифр, а моя программа с точностью распознавания 98-99% переведет их электронный вид.

MNIST – общедоступный набор данных

На следующем этапе я хочу научить её разбирать рукописные буквы. В нашем алфавите 33 буквы, значит, для обучения потребуется в три раза больше изображений. А чтобы разбирать медицинские диагнозы и рецепты, нужно обучить искусственный интеллект и кириллице, и латинице. Когда я решу эту задачу, думаю, программа будет очень полезной и в школе, и в медицине – для распознавания рецептов, расшифровки записей в медицинских карточках, и еще много где. Но чтобы обучить искусственный интеллект по методу «с учителем», то есть, когда он распознает информацию, а ты оцениваешь, верно или неверно он расшифровал данные, уйдет несколько лет. Поэтому сейчас моя главная проблема – найти достаточное количество оцифрованных и переведенных в двоичный код рукописных записей для машинного обучения. Ведь если для десяти цифр понадобилось 42 000 изображений, то для двух алфавитов их нужно сотни тысяч.

Если кто-то может подсказать Алине, где взять такие готовые оцифрованные массивы данных – пишите в редакцию «МК в Самаре» на электронную почту редакции mkvsamare@yandex.ru

А мы передадим информацию юной исследовательнице.

Что еще почитать

В регионах

Новости региона

Все новости

Новости

Самое читаемое

Автовзгляд

Womanhit

Охотники.ру