Google объявила об открытии кода системы идентификации типов файлов на базе искусственного интеллекта Magika. Она позволяет точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений.
Инструментарий и готовая модель машинного обучения опубликованы под лицензией Apache 2.0. Установить Magika можно как пакет для Python и JavaScript-библиотеку, способную работать в браузере или в проектах на базе Node.js.
Интерфейс командной строки и API поддерживают выполнение операций в пакетном режиме, а также имеются режим рекурсивного сканирования всего содержимого каталога и три режима прогнозирования для настройки устойчивости к ошибкам.Magika можно установить через менеджер пакетов pypi, просто набрав pip install magika без необходимости использования графического процессора.
Читать на habr.com