mybigday · jhen0409 · Jan 24, 2025 · Jan 20, 2025 · Jan 20, 2025 · Jan 21, 2025
diff --git a/android/src/main/CMakeLists.txt b/android/src/main/CMakeLists.txt
@@ -87,13 +87,13 @@ build_library("rnllama" "")
 
 if (${ANDROID_ABI} STREQUAL "arm64-v8a")
     # ARM64 targets
-    build_library("rnllama_v8_4_fp16_dotprod_sve" "-march=armv8.4-a+fp16+dotprod+sve")
-    build_library("rnllama_v8_4_fp16_dotprod_i8mm_sve" "-march=armv8.4-a+fp16+dotprod+i8mm+sve")
-    build_library("rnllama_v8_4_fp16_dotprod_i8mm" "-march=armv8.4-a+fp16+dotprod+i8mm")
-    build_library("rnllama_v8_4_fp16_dotprod" "-march=armv8.4-a+fp16+dotprod")
-    build_library("rnllama_v8_2_fp16_dotprod" "-march=armv8.2-a+fp16+dotprod")
-    build_library("rnllama_v8_2_fp16" "-march=armv8.2-a+fp16")
+    # Removing fp16 for now as it leads to issues with some models like deepseek r1 distills
+    # https://github.com/mybigday/llama.rn/pull/110#issuecomment-2609918310
     build_library("rnllama_v8" "-march=armv8-a")
+    build_library("rnllama_v8_2" "-march=armv8.2-a")
+    build_library("rnllama_v8_2_dotprod" "-march=armv8.2-a+dotprod")
+    build_library("rnllama_v8_2_i8mm" "-march=armv8.2-a+i8mm")
+    build_library("rnllama_v8_2_dotprod_i8mm" "-march=armv8.2-a+dotprod+i8mm")
 
     # https://github.com/ggerganov/llama.cpp/blob/master/docs/android.md#cross-compile-using-android-ndk
     # llama.cpp will deal with the cpu features

diff --git a/android/src/main/java/com/rnllama/LlamaContext.java b/android/src/main/java/com/rnllama/LlamaContext.java
@@ -349,32 +349,24 @@ public void release() {
 
     // TODO: Add runtime check for cpu features
     if (LlamaContext.isArm64V8a()) {
-      if (isAtLeastArmV84 && hasSve && hasI8mm && hasFp16 && hasDotProd) {
-        Log.d(NAME, "Loading librnllama_v8_4_fp16_dotprod_i8mm_sve.so");
-        System.loadLibrary("rnllama_v8_4_fp16_dotprod_i8mm_sve");
-        loadedLibrary = "rnllama_v8_4_fp16_dotprod_i8mm_sve";
-      } else if (isAtLeastArmV84 && hasSve && hasFp16 && hasDotProd) {
-        Log.d(NAME, "Loading librnllama_v8_4_fp16_dotprod_sve.so");
-        System.loadLibrary("rnllama_v8_4_fp16_dotprod_sve");
-        loadedLibrary = "rnllama_v8_4_fp16_dotprod_sve";
-      } else if (isAtLeastArmV84 && hasI8mm && hasFp16 && hasDotProd) {
-        Log.d(NAME, "Loading librnllama_v8_4_fp16_dotprod_i8mm.so");
-        System.loadLibrary("rnllama_v8_4_fp16_dotprod_i8mm");
-        loadedLibrary = "rnllama_v8_4_fp16_dotprod_i8mm";
-      } else if (isAtLeastArmV84 && hasFp16 && hasDotProd) {
-        Log.d(NAME, "Loading librnllama_v8_4_fp16_dotprod.so");
-        System.loadLibrary("rnllama_v8_4_fp16_dotprod");
-        loadedLibrary = "rnllama_v8_4_fp16_dotprod";
-      } else if (isAtLeastArmV82 && hasFp16 && hasDotProd) {
-        Log.d(NAME, "Loading librnllama_v8_2_fp16_dotprod.so");
-        System.loadLibrary("rnllama_v8_2_fp16_dotprod");
-        loadedLibrary = "rnllama_v8_2_fp16_dotprod";
-      } else if (isAtLeastArmV82 && hasFp16) {
-        Log.d(NAME, "Loading librnllama_v8_2_fp16.so");
-        System.loadLibrary("rnllama_v8_2_fp16");
-        loadedLibrary = "rnllama_v8_2_fp16";
+      if (hasDotProd && hasI8mm) {
+        Log.d(NAME, "Loading librnllama_v8_2_dotprod_i8mm.so");
+        System.loadLibrary("rnllama_v8_2_dotprod_i8mm");
+        loadedLibrary = "rnllama_v8_2_dotprod_i8mm";
+      } else if (hasDotProd) {
+        Log.d(NAME, "Loading librnllama_v8_2_dotprod.so");
+        System.loadLibrary("rnllama_v8_2_dotprod");
+        loadedLibrary = "rnllama_v8_2_dotprod";
+      } else if (hasI8mm) {
+        Log.d(NAME, "Loading librnllama_v8_2_i8mm.so");
+        System.loadLibrary("rnllama_v8_2_i8mm");
+        loadedLibrary = "rnllama_v8_2_i8mm";
+      } else if (hasFp16) {
+        Log.d(NAME, "Loading librnllama_v8_2.so");
+        System.loadLibrary("rnllama_v8_2");
+        loadedLibrary = "rnllama_v8_2";
       } else {
-        Log.d(NAME, "Loading librnllama_v8.so");
+        Log.d(NAME, "Loading default librnllama_v8.so");
         System.loadLibrary("rnllama_v8");
         loadedLibrary = "rnllama_v8";
       }

diff --git a/android/src/main/jni.cpp b/android/src/main/jni.cpp
@@ -336,10 +336,10 @@ Java_com_rnllama_LlamaContext_initContext(
         llama_free(llama->ctx);
     }
 
-    std::vector<common_lora_adapter_info> lora;
+    std::vector<common_adapter_lora_info> lora;
     const char *lora_chars = env->GetStringUTFChars(lora_str, nullptr);
     if (lora_chars != nullptr && lora_chars[0] != '\0') {
-        common_lora_adapter_info la;
+        common_adapter_lora_info la;
         la.path = lora_chars;
         la.scale = lora_scaled;
         lora.push_back(la);
@@ -353,7 +353,7 @@ Java_com_rnllama_LlamaContext_initContext(
             jstring path = readablemap::getString(env, lora_adapter, "path", nullptr);
             if (path != nullptr) {
                 const char *path_chars = env->GetStringUTFChars(path, nullptr);
-                common_lora_adapter_info la;
+                common_adapter_lora_info la;
                 la.path = path_chars;
                 la.scale = readablemap::getFloat(env, lora_adapter, "scaled", 1.0f);
                 lora.push_back(la);
@@ -400,7 +400,7 @@ Java_com_rnllama_LlamaContext_loadModelDetails(
     for (int i = 0; i < count; i++) {
         char key[256];
         llama_model_meta_key_by_index(llama->model, i, key, sizeof(key));
-        char val[2048];
+        char val[4096];
         llama_model_meta_val_str_by_index(llama->model, i, val, sizeof(val));
 
         putString(env, meta, key, val);
@@ -613,9 +613,12 @@ Java_com_rnllama_LlamaContext_doCompletion(
     sparams.dry_allowed_length = dry_allowed_length;
     sparams.dry_penalty_last_n = dry_penalty_last_n;
 
+    const llama_model * model = llama_get_model(llama->ctx);
+    const llama_vocab * vocab = llama_model_get_vocab(model);
+
     sparams.logit_bias.clear();
     if (ignore_eos) {
-        sparams.logit_bias[llama_token_eos(llama->model)].bias = -INFINITY;
+        sparams.logit_bias[llama_vocab_eos(vocab)].bias = -INFINITY;
     }
 
     // dry break seq
@@ -634,7 +637,7 @@ Java_com_rnllama_LlamaContext_doCompletion(
     sparams.dry_sequence_breakers = dry_sequence_breakers_vector;
 
     // logit bias
-    const int n_vocab = llama_n_vocab(llama_get_model(llama->ctx));
+    const int n_vocab = llama_vocab_n_tokens(vocab);
     jsize logit_bias_len = env->GetArrayLength(logit_bias);
 
     for (jsize i = 0; i < logit_bias_len; i++) {
@@ -913,7 +916,7 @@ Java_com_rnllama_LlamaContext_applyLoraAdapters(
     auto llama = context_map[(long) context_ptr];
 
     // lora_adapters: ReadableArray<ReadableMap>
-    std::vector<common_lora_adapter_info> lora_adapters;
+    std::vector<common_adapter_lora_info> lora_adapters;
     int lora_adapters_size = readablearray::size(env, loraAdapters);
     for (int i = 0; i < lora_adapters_size; i++) {
         jobject lora_adapter = readablearray::getMap(env, loraAdapters, i);
@@ -922,7 +925,7 @@ Java_com_rnllama_LlamaContext_applyLoraAdapters(
           const char *path_chars = env->GetStringUTFChars(path, nullptr);
           env->ReleaseStringUTFChars(path, path_chars);
           float scaled = readablemap::getFloat(env, lora_adapter, "scaled", 1.0f);
-          common_lora_adapter_info la;
+          common_adapter_lora_info la;
           la.path = path_chars;
           la.scale = scaled;
           lora_adapters.push_back(la);
@@ -947,7 +950,7 @@ Java_com_rnllama_LlamaContext_getLoadedLoraAdapters(
     auto llama = context_map[(long) context_ptr];
     auto loaded_lora_adapters = llama->getLoadedLoraAdapters();
     auto result = createWritableArray(env);
-    for (common_lora_adapter_info &la : loaded_lora_adapters) {
+    for (common_adapter_lora_info &la : loaded_lora_adapters) {
         auto map = createWriteableMap(env);
         putString(env, map, "path", la.path.c_str());
         putDouble(env, map, "scaled", la.scale);