Description
So i heard that is very good at translating text so i test it with a japanese text and it didn't even try to translate it not only that but it also forgot about the other 60% of the text ~/bloomz.cpp
$ ./main -m ./models/ggml-model-bloomz-7b1-f16-q4_0.bin -t 8 -p 'Translate this very long japanese text into English: "アズマノの件はヴァスが代わり に戦い 落着。
2時間目、レベリに襲われているリリィコを
間一髪で助け、レベリは隔離される。
イズアラの件はグラシカルが制圧。
何故かイズアラに気に入られているうアス。
|隔離されていたレベリが逃亡し騒ぎになるが
レベリはリィコと和解。
5時間目、グラシカルとギギセが採めており
ヴァスはキンセと喧障する。"'
main: seed = 1690967384
bloom_model_load: loading model from './models/ggml-model-bloomz-7b1-f16-q4_0.bin' - please wait ...
bloom_model_load: n_vocab = 250880
bloom_model_load: n_ctx = 512
bloom_model_load: n_embd = 4096
bloom_model_load: n_mult = 1
bloom_model_load: n_head = 32
bloom_model_load: n_layer = 30
bloom_model_load: f16 = 2
bloom_model_load: n_ff = 16384
bloom_model_load: n_parts = 1
bloom_model_load: ggml ctx size = 5312.64 MB
bloom_model_load: memory_size = 480.00 MB, n_mem = 15360
bloom_model_load: loading model part 1/1 from './models/ggml-model-bloomz-7b1-f16-q4_0.bin'
bloom_model_load: ............................................. done
bloom_model_load: model size = 4831.16 MB / num tensors = 366
main: prompt: 'Translate this very long japanese text into English: "アズマノの件はヴァスが代わり に戦い落着。
2時間目、レベリに襲われているリリィコを
間一髪で助け、レベリは隔離される。
イズアラの件はグラシカルが制圧。
何故かイズアラに気に入られているうアス。
|隔離されていたレベリが逃亡し騒ぎになるが
レベリはリィコと和解。
5時間目、グラシカルとギギセが採めており
ヴァスはキンセと喧障する。"'
main: number of tokens in prompt = 17
153772 -> 'Translate'
1119 -> ' this'
5636 -> ' very'
3829 -> ' long'
143958 -> ' japan'
2426 -> 'ese'
5484 -> ' text'
3727 -> ' into'
9522 -> ' English:'
567 -> ' "'
57055 -> 'ア'
204707 -> 'ズ'
109602 -> 'マ'
157771 -> 'ノ'
24440 -> 'の'
2981 -> '件'
43985 -> 'は'
sampling parameters: temp = 0.800000, top_k = 40, top_p = 0.950000, repeat_last_n = 64, repeat_penalty = 1.300000
Translate this very long japanese text into English: "アズマノの件は好きな!" "The Akuma's suit is good. [end of text]
main: mem per token = 24419292 bytes
main: load time = 5960.36 ms
main: sample time = 594.40 ms
main: predict time = 16609.30 ms / 553.64 ms per token
main: total time = 26053.20 ms`