Работа с датасетом
Позволяет изменить название, описание уже созданного датасета, а так же его состав - добавлять, редактировать и удалять сэмплы.
Перейти в режим редактирования датасета можно:
- кнопкой редактирования справа от названия датасета
- ссылкой “Редактировать” в меню “три точки” слева от названия датасета
В режиме редактирования:
Корректировка названия и описания датасета
Изменить название и описание датасета верхней части раздела изменив соответствующие поля. Сохранение результатов происходит автоматически и не требует дополнительных действий.
Импорт данных в датасет из документа
Позволяет загрузить данные из файла в уже созданный датасет.
Загрузить данные можно:
- кнопкой “Импорт” в правой верхней части раздела
При загрузке можно выбрать тип:
- добавить. Добавит данные из файла к уже имеющимся данным.
- заменить. Заменит имеющиеся данные данными из файла.
Можно выбрать файл в формате CSV следующей структуры: Вопрос;Ответ;Тег
При загрузке данных из файла можно пропустить первую строку при обработке (в том случае, если первая строка вашего файла - заголовки таблицы).
Экспорт данных в файл
Позволяет экспортировать все сэмплы датасета в формате CSV или JSONL. Скорость подготовки и выгрузки документа зависит от количества добавленных в документе сэмплов. Если документ содержит в себе большое количество данных - просьба набраться терпения и не перезагружать страницу до окончания экспорта.
Экспортировать документ можно:
- кнопкой “Экспорт” в правой верхней части раздела
Важно: Если вы использовали фильтрацию внутри датасета (по тегами или ключевому слову) выгрузятся только отфильтрованные отображаемые данные. Чтобы выгрузить все сэмплы датасета отмените фильтрацию.
Вкладки с сэмплами
В режиме редактирования доступно 3 вкладки: Сэмплы датасета, Дубликаты сэмплов, Удаленные сэмплы
По умолчанию выбрана вкладка “Сэмплы датасета”. В ней отображаются все актуальные сэмплы датасета, включая дубли, но не включая удаленные.
Во вкладке “Дубли сэмплов” отображаются полные дубли сэмплов (сэмплы, у которых одинаковые и вопросы и ответы). Мы рекомендуем не использовать в датасете полные дубли или сэмплы с одинаковыми вопросами и разными ответами. Такие дубли негативно сказываются на качестве обучаемой на датасете модели. В случае обнаружения дублей рекомендуется либо уникализировать вопросы, перефразировав или изменив порядок слов в них, либо удалить дублирующий сэмпл.
Во вкладке “Удаленные сэмплы” отображаются удаленные ранее сэмплы с возможностью их восстановления. Восстановить сэмпл можно кликом по ссылке “Восстановить” в меню “Три точки” справа от удаленного сэмпла.
Фильтрация сэмплов в датасете
Сэмплы внутри датасета можно отфильтровать по ключевому слову или тегам.
При вводе ключевого слова в поле “Введите название” происходит фильтрация по введенной фразе. Поиск и фильтрация осуществляется и по вопросу, и по ответу. Отменить фильтрацию можно удалив введенное слово или нажав на крестик в правой части поля ввода.
В поле “Выберите тег” можно выбрать один или несколько тегов. После выбора страница автоматически обновится, оставив только сэмплы с выбранными тегами. Сбросить сортировку по тегам можно, удалив поочередно выбранные теги или нажав на кнопку “Сбросить” рядом с полем выбора.
Создание сэмпла
Для добавления новой пары “Вопрос - Ответ” воспользуйтесь полями ввода “Новый вопрос” и “Новый ответ”. После ввода необходимо нажать кнопку “Добавить”. Оба поля являются обязательными для заполнения.
Редактирование сэмпла
Для редактирования вопроса или ответа сэмпла необходимо кликнуть по соответствующим полям в списке сэмплов. Первый клик переведет фокус на поле. Второй клик переведет поле в режим редактирования. Сохранение введенных данных происходит автоматически и не требует дополнительных действий.
Добавление тегов для сэмплов
Вы можете присвоить каждому сэмплу один или несколько тегов. Сделать это можно в соответствующем поле столбца “Теги”. Для поиска и выбора тега начните ввод фразы и выберите тег из списка предложенных. Если в списке тегов нет нужного - введите полное название и нажмите “Enter” - это добавит новый тег в список тегов проекта. То же самое можно сделать в разделе “Теги”.
Важно: Напротив каждого тега в списке есть кнопка удаления тега. Это позволяет удалить тег прямо в списке тегов.
Будьте внимательны: Данную операцию невозможно отменить.
Дублирование сэмплов
Данная операция позволяет создать полный дубль выбранного сэмпла.
Дубли сэмпла стоит создавать только для того, чтобы потом скорректировать (уникализировать) вопрос, а ответ оставить нетронутым. Тем самым расширяется вариативность, а точность обучения улучшается.
Сами по себе дубли не представляют никакой ценности и будут только ухудшать результаты обучения.
Создать дубль сэмпла можно, кликнув по ссылке “Дублировать” в меню “Три точки” справа от нужного сэмпла. При дублировании новый сэмпл появляется под оригинальным.
Изменение системного промпта для конкретного сэмпла
Для каждого сэмпла в системном промпте по умолчания установлен системный промпт, который был задан при создании датасета. В Ai Chief при необходимости можно задать свой промпт для каждого сэмпла.
Сделать этом можно, кликнув по ссылку “Системный промпт” в меню “Три точки” справа от нужного сэмпла. В появившемся окне необходимо выбрать новый системный промпт из списка ранее созданных и нажать кнопку “Изменить системный промпт”
История изменения сэмплов
Корректировки сэмплов сказываются на результатах обучения модели. Поэтому все корректировки вопросов и ответов для каждой пары сохраняются в истории с возможностью восстановления.
Перейти в историю изменения сэмплов можно, кликнув по ссылке “История” в меню “Три точки” справа от нужного сэмпла. В появившемся окне будет отображена история изменения вопросов и ответов с датами. Для восстановления вопроса или ответа необходимо нажать на кнопку восстановления напротив данных.
Удаление сэмплов
Позволяет удалить выбранный сэмпл из датасета. Для удаления сэмпла необходимо кликнуть по ссылке “Удалить” в меню “Три точки” справа от нужного сэмпла.
После удаления сэмпл не удаляется безвозвратно, а переходит во вкладку “Удаленные сэмплы”.
Массовые операции с сэмплами
В режиме редактирования датасета вы можете выбрать все или несколько сэмплов, кликнув по чекбоксу напротив необходимых сэмплов.
Вам доступны следующие массовые операции с выбранными сэмплами:
- массовое удаление: клик по кнопке удаления в появившемся меню действий
- массовое присвоение тегов: клик по кнопке редактирование в появившемся меню
Навигация в сэмплах
В нижней части экрана отображается статистическая информация о количестве сэмплов, страниц, а также элементы навигации.
Вы можете выбрать количество элементов, отображаемых на странице и использовать кнопки “вперед” и “назад” для навигации по списку сэмплов.