Skip to Content
Ai Chief 1.0 is released 🎉
ДатасетыРедактирование

Работа с датасетом

Позволяет изменить название, описание уже созданного датасета, а так же его состав - добавлять, редактировать и удалять сэмплы.

Перейти в режим редактирования датасета можно:

  • кнопкой редактирования справа от названия датасета
  • ссылкой “Редактировать” в меню “три точки” слева от названия датасета

В режиме редактирования:

Корректировка названия и описания датасета

Изменить название и описание датасета верхней части раздела изменив соответствующие поля. Сохранение результатов происходит автоматически и не требует дополнительных действий.

Импорт данных в датасет из документа

Позволяет загрузить данные из файла в уже созданный датасет.

Загрузить данные можно:

  • кнопкой “Импорт” в правой верхней части раздела

При загрузке можно выбрать тип:

  • добавить. Добавит данные из файла к уже имеющимся данным.
  • заменить. Заменит имеющиеся данные данными из файла.

Можно выбрать файл в формате CSV следующей структуры: Вопрос;Ответ;Тег

При загрузке данных из файла можно пропустить первую строку при обработке (в том случае, если первая строка вашего файла - заголовки таблицы).

Экспорт данных в файл

Позволяет экспортировать все сэмплы датасета в формате CSV или JSONL. Скорость подготовки и выгрузки документа зависит от количества добавленных в документе сэмплов. Если документ содержит в себе большое количество данных - просьба набраться терпения и не перезагружать страницу до окончания экспорта.

Экспортировать документ можно:

  • кнопкой “Экспорт” в правой верхней части раздела

Важно: Если вы использовали фильтрацию внутри датасета (по тегами или ключевому слову) выгрузятся только отфильтрованные отображаемые данные. Чтобы выгрузить все сэмплы датасета отмените фильтрацию.

Вкладки с сэмплами

В режиме редактирования доступно 3 вкладки: Сэмплы датасета, Дубликаты сэмплов, Удаленные сэмплы

По умолчанию выбрана вкладка “Сэмплы датасета”. В ней отображаются все актуальные сэмплы датасета, включая дубли, но не включая удаленные.

Во вкладке “Дубли сэмплов” отображаются полные дубли сэмплов (сэмплы, у которых одинаковые и вопросы и ответы). Мы рекомендуем не использовать в датасете полные дубли или сэмплы с одинаковыми вопросами и разными ответами. Такие дубли негативно сказываются на качестве обучаемой на датасете модели. В случае обнаружения дублей рекомендуется либо уникализировать вопросы, перефразировав или изменив порядок слов в них, либо удалить дублирующий сэмпл.

Во вкладке “Удаленные сэмплы” отображаются удаленные ранее сэмплы с возможностью их восстановления. Восстановить сэмпл можно кликом по ссылке “Восстановить” в меню “Три точки” справа от удаленного сэмпла.

Фильтрация сэмплов в датасете

Сэмплы внутри датасета можно отфильтровать по ключевому слову или тегам.

При вводе ключевого слова в поле “Введите название” происходит фильтрация по введенной фразе. Поиск и фильтрация осуществляется и по вопросу, и по ответу. Отменить фильтрацию можно удалив введенное слово или нажав на крестик в правой части поля ввода.

В поле “Выберите тег” можно выбрать один или несколько тегов. После выбора страница автоматически обновится, оставив только сэмплы с выбранными тегами. Сбросить сортировку по тегам можно, удалив поочередно выбранные теги или нажав на кнопку “Сбросить” рядом с полем выбора.

Создание сэмпла

Для добавления новой пары “Вопрос - Ответ” воспользуйтесь полями ввода “Новый вопрос” и “Новый ответ”. После ввода необходимо нажать кнопку “Добавить”. Оба поля являются обязательными для заполнения.

Редактирование сэмпла

Для редактирования вопроса или ответа сэмпла необходимо кликнуть по соответствующим полям в списке сэмплов. Первый клик переведет фокус на поле. Второй клик переведет поле в режим редактирования. Сохранение введенных данных происходит автоматически и не требует дополнительных действий.

Добавление тегов для сэмплов

Вы можете присвоить каждому сэмплу один или несколько тегов. Сделать это можно в соответствующем поле столбца “Теги”. Для поиска и выбора тега начните ввод фразы и выберите тег из списка предложенных. Если в списке тегов нет нужного - введите полное название и нажмите “Enter” - это добавит новый тег в список тегов проекта. То же самое можно сделать в разделе “Теги”.

Важно: Напротив каждого тега в списке есть кнопка удаления тега. Это позволяет удалить тег прямо в списке тегов.

Будьте внимательны: Данную операцию невозможно отменить.

Дублирование сэмплов

Данная операция позволяет создать полный дубль выбранного сэмпла.

Дубли сэмпла стоит создавать только для того, чтобы потом скорректировать (уникализировать) вопрос, а ответ оставить нетронутым. Тем самым расширяется вариативность, а точность обучения улучшается.

Сами по себе дубли не представляют никакой ценности и будут только ухудшать результаты обучения.

Создать дубль сэмпла можно, кликнув по ссылке “Дублировать” в меню “Три точки” справа от нужного сэмпла. При дублировании новый сэмпл появляется под оригинальным.

Изменение системного промпта для конкретного сэмпла

Для каждого сэмпла в системном промпте по умолчания установлен системный промпт, который был задан при создании датасета. В Ai Chief при необходимости можно задать свой промпт для каждого сэмпла.

Сделать этом можно, кликнув по ссылку “Системный промпт” в меню “Три точки” справа от нужного сэмпла. В появившемся окне необходимо выбрать новый системный промпт из списка ранее созданных и нажать кнопку “Изменить системный промпт”

История изменения сэмплов

Корректировки сэмплов сказываются на результатах обучения модели. Поэтому все корректировки вопросов и ответов для каждой пары сохраняются в истории с возможностью восстановления.

Перейти в историю изменения сэмплов можно, кликнув по ссылке “История” в меню “Три точки” справа от нужного сэмпла. В появившемся окне будет отображена история изменения вопросов и ответов с датами. Для восстановления вопроса или ответа необходимо нажать на кнопку восстановления напротив данных.

Удаление сэмплов

Позволяет удалить выбранный сэмпл из датасета. Для удаления сэмпла необходимо кликнуть по ссылке “Удалить” в меню “Три точки” справа от нужного сэмпла.

После удаления сэмпл не удаляется безвозвратно, а переходит во вкладку “Удаленные сэмплы”.

Массовые операции с сэмплами

В режиме редактирования датасета вы можете выбрать все или несколько сэмплов, кликнув по чекбоксу напротив необходимых сэмплов.

Вам доступны следующие массовые операции с выбранными сэмплами:

  • массовое удаление: клик по кнопке удаления в появившемся меню действий
  • массовое присвоение тегов: клик по кнопке редактирование в появившемся меню

Навигация в сэмплах

В нижней части экрана отображается статистическая информация о количестве сэмплов, страниц, а также элементы навигации.

Вы можете выбрать количество элементов, отображаемых на странице и использовать кнопки “вперед” и “назад” для навигации по списку сэмплов.