Releases · ggml-org/llama.cpp

15 Feb 10:45

f355229

b4721

server: fix type promotion typo causing crashes w/ --jinja w/o tools …

Assets 23

15 Feb 08:34

github-actions

b4720

fc1b0d0

b4720

vulkan: initial support for IQ1_S and IQ1_M quantizations (#11528)

* vulkan: initial support for IQ1_S and IQ1_M quantizations

* vulkan: define MMV kernels for IQ1 quantizations

* devops: increase timeout of Vulkan tests again

* vulkan: simplify ifdef for init_iq_shmem

Assets 23

14 Feb 21:22

github-actions

b4719

89daa25

b4719

llguidance build fixes for Windows (#11664)

* setup windows linking for llguidance; thanks @phil-scott-78

* add build instructions for windows and update script link

* change VS Community link from DE to EN

* whitespace fix

Assets 24

14 Feb 19:50

github-actions

b4718

300907b

b4718

opencl: Fix rope and softmax (#11833)

* opencl: fix `ROPE`

* opencl: fix `SOFT_MAX`

* Add fp16 variant

* opencl: enforce subgroup size for `soft_max`

Assets 24

14 Feb 15:29

github-actions

b4717

94b87f8

b4717

cuda : add ampere to the list of default architectures (#11870)

Assets 23

14 Feb 13:28

github-actions

b4716

dbc2ec5

b4716

docker : drop to CUDA 12.4 (#11869)

* docker : drop to CUDA 12.4

* docker : update readme [no ci]

Assets 22

14 Feb 09:24

github-actions

b4714

38e32eb

b4714

ggml: optimize some vec dot functions for LoongArch ASX (#11842)

* Optimize ggml_vec_dot_q3_K_q8_K for LoongArch ASX

* Optimize ggml_vec_dot_q4_K_q8_K for LoongArch ASX

* Optimize ggml_vec_dot_q6_K_q8_K for LoongArch ASX

* Optimize ggml_vec_dot_q5_K_q8_K for LoongArch ASX

* Optimize ggml_vec_dot_q2_K_q8_K for LoongArch ASX

* Optimize mul_sum_i8_pairs_float for LoongArch ASX

* Optimize ggml_vec_dot_iq4_xs_q8_K for LoongArch ASX

Assets 23

14 Feb 03:36

github-actions

b4713

a4f011e

b4713

vulkan: linux builds + small subgroup size fixes (#11767)

* mm subgroup size

* upload vulkan x86 builds

Assets 24

14 Feb 01:45

github-actions

b4712

a7b8ce2

b4712

llama-bench : fix unexpected global variable initialize sequence issu…

Assets 23

13 Feb 17:40

github-actions

b4710

8a8c4ce

b4710

llamafile: use member variable instead of constant for iq4nlt (#11780)

Assets 23

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: ggml-org/llama.cpp

b4721

b4720

b4719

b4718

b4717

b4716

b4714

b4713

b4712

b4710