-2.1 C
Москва
Воскресенье, 22 декабря, 2024

Microsoft представила инструмент для конвертации файлов в Markdown

Для тех, кому действительно нужно.

Microsoft выпустила на GitHub открытый инструмент MarkItDown — библиотеку Python для преобразования файлов и офисных документов в формат Markdown. Этот легковесный язык разметки с простым текстовым синтаксисом — его легко читать, писать и понимать.

Благодаря чёткому и предсказуемому синтаксису Markdown, алгоритмы ИИ могут легко анализировать текст и понимать его структуру. Markdown поддерживается многими популярными инструментами, включая GitHub и блокноты Jupyter.

MarkItDown поддерживает следующие форматы файлов:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • Изображения (метаданные EXIF и OCR)
  • Аудио (метаданные EXIF и транскрипция речи)
  • HTML (специальная обработка Wikipedia и др.)
  • Различные текстовые форматы (csv, json, xml и др.)

Библиотека распространяется по открытой лицензии MIT, позволяющей разработчикам свободно использовать, изменять и распространять код с обязательным указанием авторства и оригинальной лицензии. MarkItDown можно скачать с GitHub, установить с помощью команды pip install markitdown или из исходников командой pip install -e.

Читать также:
Глава SoftBank ожидает, что ИИ сможет управлять человеческим бытом через года три

Кроме того, MarkItDown можно настроить для использования больших языковых моделей (LLM) при описании изображений. Для этого необходимо указать параметры mlm_client и mlm_model в объекте MarkItDown.

Преобразованные файлы можно использовать для индексации, текстового анализа и других задач.

НОВОЕ НА САЙТЕ