整形形式
「分かち書きのみ」の場合は何も整形しません。
「分かち書き+整形」の場合は以下の処理をして出力します。
- 数字を0に置き換える
- 記号を削除する
- カンマを削除する
- タブを削除する
- 英単語は全て小文字にする
出力形式
以下のフォーマットから選択して出力します。
- txt (Text Documents)
- csv (Comma Separated Values )
- tsv (Tab Separated Values )
ファイル名を出力
「Yes」の場合はファイル名を出力します。
逆にファイル名は出力したくない場合もあったりするので、その場合は「No」を選択します。
正解ラベルを出力(欠損値なし)
「Yes」の場合は正解ラベルを出力します。
「欠損値なし」にしているため全ての正解ラベルが出力されます。
正解ラベルを出力(欠損値あり)
「10%」~「90%」を選択した場合は正解ラベルを出力します。
「欠損値あり」にしているため一部の正解ラベルが出力されません。
例えば、選択肢で10%を選択した場合は全データの10%がラベルなしデータとして出力されます。
一部の正解ラベルを隠して学習する半教師あり学習で使用します。
文章を出力
「Yes」の場合は文章を出力します。
文章を出力したくない場合はあまりないと思いますが、一応選択肢にしています。
指定されたデータのみ出力
特定のデータだけ出力する場合はファイル名をtxtファイルに記述してアップロードします。
以下のように、1行毎に区切ってファイル名を入力
dokujo-tsushin-4782522.txt
dokujo-tsushin-4788373.txt
dokujo-tsushin-4791665.txt
データベースに存在しないファイル名はスルーします。
txt, csv 以外のファイルをアップロードした場合はエラーメッセージを表示します。