Updated llama.cpp-mainline

2025-03-06 20:49:17 +01:00 · 2023-11-09 12:51:53 +01:00 · 2023-11-09 12:51:53 +01:00 · ef5df1dc31
commit ef5df1dc31
parent fc5e4f5aa1
3 changed files with 25 additions and 28 deletions
--- a/justlm_llama.hpp
+++ b/justlm_llama.hpp
@ -150,7 +150,7 @@ class LLaMAInference final : public Inference {
        llama_token_data_array candidates_p = {candidates.data(), candidates.size(), false};
        // Sample repeat penalty
        auto n_repeat_last = std::min<size_t>(state->tokens.size(), params.n_repeat_last);
-        llama_sample_repetition_penalty(state->ctx, &candidates_p, params.n_repeat_last?(state->tokens.data()+state->tokens.size()-n_repeat_last):nullptr, n_repeat_last, params.repeat_penalty);
+        llama_sample_repetition_penalties(state->ctx, &candidates_p, params.n_repeat_last?(state->tokens.data()+state->tokens.size()-n_repeat_last):nullptr, n_repeat_last, params.repeat_penalty, 1.0f, 1.0f); // Might be wrong
        // Grammar sampling
        if (state->grammar) {
            llama_sample_grammar(state->ctx, &candidates_p, state->grammar);
@ -212,7 +212,7 @@ public:
        state->tokens.resize(old_token_count+state->prompt.size());

        // Run tokenizer
-        const auto token_count = llama_tokenize(state->model, prompt.c_str(), prompt.size(), state->tokens.data()+old_token_count, state->tokens.size()-old_token_count, was_empty);
+        const auto token_count = llama_tokenize(state->model, prompt.c_str(), prompt.size(), state->tokens.data()+old_token_count, state->tokens.size()-old_token_count, was_empty, false);
        state->tokens.resize(old_token_count+token_count);

        // Make sure token limit isn't being hit
@ -243,13 +243,13 @@ public:
                LM_COTHROW(e.what(), "");
            }

-            if (id == llama_token_eos(state->ctx)) {
+            if (id == llama_token_eos(state->model)) {
                if (eos_count++ == params.n_eos_ignores) {
                    abort = true;
                    continue;
                }
                state->tokens.push_back(0);
-                llama_tokenize(state->model, "\n", 1, &state->tokens.back(), 1, false);
+                llama_tokenize(state->model, "\n", 1, &state->tokens.back(), 1, false, false);
                id = state->tokens.back();
            } else {
                // Add token
--- a/llama.cpp-mainline
+++ b/llama.cpp-mainline
@ -1 +1 @@
-Subproject commit 019ba1dcd0c7775a5ac0f7442634a330eb0173cc
+Subproject commit a75fa576abba9d37f463580c379e4bbf1e1ad03c
--- a/llama.cpp.cmake
+++ b/llama.cpp.cmake
@ -274,33 +274,27 @@ function(include_ggml DIRECTORY SUFFIX WITH_LLAMA)
        endif()
    endif()

-    set(GGML_SOURCES_QUANT_K )
    set(GGML_METAL_SOURCES )
-    if (LLAMA_K_QUANTS)
-        set(GGML_SOURCES_QUANT_K
-            ${DIRECTORY}/k_quants.h
-            ${DIRECTORY}/k_quants.c)

-        if (LLAMA_METAL)
-            find_library(FOUNDATION_LIBRARY         Foundation              REQUIRED)
-            find_library(METAL_FRAMEWORK            Metal                   REQUIRED)
-            find_library(METALKIT_FRAMEWORK         MetalKit                REQUIRED)
-            find_library(METALPERFORMANCE_FRAMEWORK MetalPerformanceShaders REQUIRED)
+    if (LLAMA_METAL)
+        find_library(FOUNDATION_LIBRARY         Foundation              REQUIRED)
+        find_library(METAL_FRAMEWORK            Metal                   REQUIRED)
+        find_library(METALKIT_FRAMEWORK         MetalKit                REQUIRED)
+        find_library(METALPERFORMANCE_FRAMEWORK MetalPerformanceShaders REQUIRED)

-            set(GGML_METAL_SOURCES ${DIRECTORY}/ggml-metal.m ${DIRECTORY}/ggml-metal.h)
-            # get full path to the file
-            #add_compile_definitions(GGML_METAL_DIR_KERNELS="${CMAKE_CURRENT_SOURCE_DIR}/")
+        set(GGML_METAL_SOURCES ${DIRECTORY}/ggml-metal.m ${DIRECTORY}/ggml-metal.h)
+        # get full path to the file
+        #add_compile_definitions(GGML_METAL_DIR_KERNELS="${CMAKE_CURRENT_SOURCE_DIR}/")

-            # copy ggml-metal.metal to bin directory
-            configure_file(${DIRECTORY}/ggml-metal.metal bin/ggml-metal.metal COPYONLY)
+        # copy ggml-metal.metal to bin directory
+        configure_file(${DIRECTORY}/ggml-metal.metal bin/ggml-metal.metal COPYONLY)

-            set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS}
-                ${FOUNDATION_LIBRARY}
-                ${METAL_FRAMEWORK}
-                ${METALKIT_FRAMEWORK}
-                ${METALPERFORMANCE_FRAMEWORK}
-            )
-        endif()
+        set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS}
+            ${FOUNDATION_LIBRARY}
+            ${METAL_FRAMEWORK}
+            ${METALKIT_FRAMEWORK}
+            ${METALPERFORMANCE_FRAMEWORK}
+        )
    endif()

    set(GGML_SOURCES
@ -308,7 +302,10 @@ function(include_ggml DIRECTORY SUFFIX WITH_LLAMA)
        ${DIRECTORY}/ggml.h
        ${DIRECTORY}/ggml-alloc.c
        ${DIRECTORY}/ggml-alloc.h
-        ${GGML_SOURCES_QUANT_K}
+        ${DIRECTORY}/ggml-quants.c
+        ${DIRECTORY}/ggml-quants.h
+        ${DIRECTORY}/ggml-backend.c
+        ${DIRECTORY}/ggml-backend.h}
        ${GGML_SOURCES_CUDA}
        ${GGML_METAL_SOURCES}
        ${GGML_OPENCL_SOURCES})