Microsoft поможет машинам отвечать на вопросы не хуже людей

Новости Наука и техника

Массив данных от Microsoft поможет машинам отвечать на вопросы не хуже людей. Об этом 21 декабря рассказывается в посте на сайте Microsoft.

«Microsoft обнародовала массив из 100 тыс. вопросов и ответов, которыми смогут воспользоваться разработчики искусственного интеллекта для создания систем, способных распознавать вопросы и отвечать на них не хуже людей.

Набор данных называется MS MARCO, что расшифровывается как Microsoft MAchine Reading COmprehension (машинное чтение и понимание текста), и, по словам команды разработчиков, это самый полезный набор данных в своем роде, поскольку он основан на анонимных данных от реальных пользователей. Предоставив широкий доступ к этому набору данных, команда надеется поспособствовать таким же прорывам в сфере машинного чтения, как и те, что сейчас наблюдаются в сфере распознавания изображений и речи.

Разработчики также надеются стимулировать инновации, которые способны в конечном счете привести к реализации долгосрочной цели по созданию общего искусственного интеллекта (artificial general intelligence), или машин, способных думать как люди.

«Для того, чтобы приблизить создание общего искусственного интеллекта, нам необходимо научить машину читать документы и понимать их как человек, — говорит Ранган Маджумдер, руководитель исследовательской программы в подразделении Bing, возглавляющий работу над проектом. – Это и есть шаг в данном направлении».

В настоящий момент, по словам г-на Маджумдера, возможности систем отвечать на сложные вопросы находятся в зародышевом состоянии. Поисковые системы, такие как Bing, и виртуальные помощники, такие как Cortana, могут отвечать на простейшие вопросы, вроде «когда начинается ханука?» или «сколько будет 2000 умножить на 43?»

Однако во многих случаях поисковики и виртуальные помощники вместо ответа предлагают пользователю набор результатов поиска. В итоге пользователь получает нужную информацию, однако для этого ему приходится отсортировать результаты поиска, а ответ на вопрос он находит на сторонней интернет-странице.

Для того, чтобы улучшить системы автоматических ответов на вопросы, разработчикам требуется надежный источник данных для обучения. Наборы данных MS MARCO можно использовать для того, чтобы научить системы искусственного интеллекта распознавать вопросы и формулировать ответы на них. В итоге можно будет научить такие системы предлагать ответы на уникальные вопросы, не встречавшиеся ранее.

Маджумдер и его команда, в которую входят специалисты Microsoft и разработчики продуктов Microsoft, утверждают, что массив данных MS MARCO имеет особую ценность, поскольку вопросы основаны на реальных запросах в поисковике Bing и виртуальном помощнике Cortana. Команда выбрала из них анонимные вопросы, которые, по их мнению, представляли наибольший интерес для разработчиков. Кроме того, вопросы были сформулированы реальными людьми, основаны на реальных веб-страницах и были проверены на предмет точности.

Предоставляя открытый доступ к реальным вопросам и ответам, исследователи могут обучать системы для более эффективной работы с различными нюансами и сложностями, которые содержатся в вопросах обычных людей, включая запросы, на которые нельзя дать четкий ответ или возможных ответов несколько.

Например, в наборе данных есть вопрос «чем питались древние греки?». Для правильного ответа на этот вопрос приходилось копаться в обрывках информации из различных документов и во фрагментах текстов, где упоминались такие продукты, как злаки, торт, молоко, оливки, рыба, чеснок и капуста.

Ли Дэн, менеджер по работе с партнёрами Microsoft Deep Learning Technology Center, отмечает, что раньше наборы данных создавались с рядом ограничений и запретов. Таким образом исследователям было проще создавать решения, которые можно было сформулировать в виде «задачи классификации», как это называют ученые, работающие с системами искусственного интеллекта. При этом от компьютера не требовалось понимания того, что собственно означает текст вопроса.

По его словам, MS MARCO создавался для того, чтобы исследователи могли экспериментировать с более продвинутыми моделями глубокого обучения, тем самым двигая вперед исследования в сфере искусственного интеллекта.

«Наш массив данных создан не только с использованием информации из реального мира, но и без указанных выше ограничений, чтобы модели глубокого обучения нового поколения могли сначала понимать исходные данные, и лишь затем отвечать на вопросы», — сказал он.

По словам г-на Маджумдера, способность систем отвечать на сложные вопросы может предоставить новые возможности, позволив людям эффективнее получать нужную информацию.

Представим, что студентке надо узнать, может ли она претендовать на получение определенного кредита. Поисковик может направить её на ряд сайтов, где она прочитает массу информации и сама найдет ответ. Но с помощью улучшенных инструментов, виртуальный помощник сможет отсортировать информацию вместо неё и быстро дать подробный ответ, который подходит именно этой студентке.

«С учетом того, что значительная часть всей информации в мире представлена в текстовом формате, если мы научим машины читать и понимать документы так же хорошо, как люди, мы сможем обеспечить реализацию подобного примера на практике», — говорит г-н Маджумдер.

Долгосрочная цель – общий искусственный интеллект

Во всяком случае, сейчас исследователи далеки от создания систем, действительно способных понимать или воспринимать то, что люди говорят, видят или пишут. Именно это понимается под «общим искусственным интеллектом».

Однако в последние несколько лет специалисты в сфере машинного обучения и искусственного интеллекта в Microsoft и не только добились потрясающего прогресса в создании систем, умеющих распознавать слова в разговорной речи и верно определять элементы изображений.

«Microsoft был первопроходцем в распознавании речи и изображений, и теперь мы стремимся стать лидерами в обучении машин понимать тексты», — заявил г-н Маджумдер.

Однако эту проблему ни одна компания в мире не сможет решить в одиночку, отмечает он. По словам г-н Маджумдера, одна из причин, по которой его команда предоставила широкий доступ к указанному набору данных, состоит в стремлении сотрудничать с коллегами в данной сфере исследований.

Массив MS MARCO сформирован по образцу схожих наборов данных для обучения, которые создавались для содействия передовым разработкам в различных областях машинного обучения и искусственного интеллекта. В частности, это относится к базе данных ImageNet, которая считается лучшим набором данных, использовавшимся в самых продвинутых технологиях распознавания изображений. Команда специалистов Microsoft использовала ImageNet при тестировании первых глубинных остаточных сетей (deep residual network), которые смогли значительно повысить точность распознавания изображений.

Команда, работающая над MS MARCO, планирует последовать примеру ImageNet и следить за успехами отдельных команд исследователей. Со временем это может трансформироваться в соревнование в рамках ежегодных конкурсов ImageNet.

Массив данных MS MARCO бесплатно доступен для скачивания всем, кто планирует использовать его в некоммерческих целях.»

Автор:	Softodrom.ru
Дата:	21.12.2016 20:03

Новое: Наука и техника

23.05.2025 17:17

В Москве появился первый умный дом с Алисой

Яндекс объявил о запуске пилотного проекта по интеграции Алисы в умные здания

12.05.2025 16:47

В Японии проведут испытания электромагнитной пушки

Японское Министерство обороны анонсировало испытания рельсотрона — электромагнитной пушки

29.04.2025 21:33

Более 20 российских вузов будут готовить топ-специалистов в сфере ИИ к 2030 году

Завершен конкурсный отбор вузов, которые с 2025 по 2030 годы будут готовить специалистов в области искусственного интеллекта

29.04.2025 13:58

Amazon вывела на орбиту спутники — конкуренты Starlink

Спутниковый интернет от Amazon станет конкурентом Starlink от SpaceX Илона Маска

29.04.2025 13:35

Яндекс будет разрабатывать роботов-гуманоидов

Человекоподобные роботы не нуждаются в специальной инфраструктуре — они способны функционировать в той же среде, что и люди

Популярное: Наука и техника

22.12.2023 21:01

СМИ: проект Hyperloop близок к закрытию

Hyperloop — проект вакуумного поезда, предложенный в 2013 году Илоном Маском

20.12.2023 20:00

NASA протестировало лазерную систему связи и получило из космоса видео с котом

NASA объявило об успешной передаче информации с зонда Психея, направляющегося к одноименному астероиду, с помощью лазерной системы связи

04.11.2023 17:30

Учебники по китайскому и корейскому в России обошли по популярности немецкий

Спрос на учебники по европейским языкам в России значительно упал, но при этом растут продажи учебных пособий по китайскому и корейскому

12.12.2023 22:22

«Алиса» перестала подчиняться пользователям из-за сбоя

В работе устройств «Яндекса» для «умного» дома произошел сбой

11.12.2023 12:22

Правительство выделит 16,5 млрд руб. на создание инженерных школ

В программе создания инженерных школ принимают участие более 150 высокотехнологичных компаний

Новости / Наука и техника

Все рубрики статей (1291 / 138):

Программы \| Авторам \| Рассылки \| Реклама
Copyright © 1999-2025 Softodrom.ru О проекте \| О перепечатках \| Пользовательское соглашение \| Политика конфиденциальности \| Карта сайта