feat: feat: support Ollama models via LangChain callback handler

Stainless Bot · Stainless Bot · commit 2865b34e70f2 · 2024-08-12T16:54:38.000Z
diff --git a/examples/tracing/ollama/ollama_tracing.ipynb b/examples/tracing/ollama/ollama_tracing.ipynb
@@ -0,0 +1,151 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "2722b419",
+   "metadata": {},
+   "source": [
+    "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/openlayer-ai/openlayer-python/blob/main/examples/tracing/ollama/ollama_tracing.ipynb)\n",
+    "\n",
+    "\n",
+    "# <a id=\"top\">Ollama tracing</a>\n",
+    "\n",
+    "This notebook illustrates how use Openlayer's callback handler to trace Ollama calls. \n",
+    "\n",
+    "Before running this notebook, make sure you first follow [these instructions](https://github.com/ollama/ollama) to set up and run a local Ollama instance."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "020c8f6a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!pip install openlayer langchain-ollama"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "75c2a473",
+   "metadata": {},
+   "source": [
+    "## 1. Set the environment variables"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f3f4fa13",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "\n",
+    "# Openlayer env variables\n",
+    "os.environ[\"OPENLAYER_API_KEY\"] = \"YOUR_OPENLAYER_API_KEY_HERE\"\n",
+    "os.environ[\"OPENLAYER_INFERENCE_PIPELINE_ID\"] = \"YOUR_OPENLAYER_INFERENCE_PIPELINE_ID_HERE\""
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9758533f",
+   "metadata": {},
+   "source": [
+    "## 2. Instantiate the `OpenlayerHandler`"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "e60584fa",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from openlayer.lib.integrations import langchain_callback\n",
+    "\n",
+    "openlayer_handler = langchain_callback.OpenlayerHandler()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "76a350b4",
+   "metadata": {},
+   "source": [
+    "## 3. Use an Ollama model with LangChain\n",
+    "\n",
+    "Now, you can pass the `openlayer_handler` as a callback to LLM's or chain invokations."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "e00c1c79",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from langchain_ollama import ChatOllama"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "abaf6987-c257-4f0d-96e7-3739b24c7206",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "chat = ChatOllama(\n",
+    "    model=\"llama3.1\",\n",
+    "    callbacks=[openlayer_handler]\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "4123669f-aa28-47b7-8d46-ee898aba99e8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "chat.invoke(\"What's the meaning of life?\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9a702ad1-da68-4757-95a6-4661ddaef251",
+   "metadata": {},
+   "source": [
+    "That's it! Now your data is being streamed to Openlayer after every invokation."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "a3092828-3fbd-4f12-bae7-8de7f7319ff0",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.19"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/src/openlayer/lib/integrations/langchain_callback.py b/src/openlayer/lib/integrations/langchain_callback.py
@@ -9,8 +9,8 @@
 
 from ..tracing import tracer
 
-LANGCHAIN_TO_OPENLAYER_PROVIDER_MAP = {"openai-chat": "OpenAI"}
-PROVIDER_TO_STEP_NAME = {"OpenAI": "OpenAI Chat Completion"}
+LANGCHAIN_TO_OPENLAYER_PROVIDER_MAP = {"openai-chat": "OpenAI", "chat-ollama": "Ollama"}
+PROVIDER_TO_STEP_NAME = {"OpenAI": "OpenAI Chat Completion", "Ollama": "Ollama Chat Completion"}
 
 
 class OpenlayerHandler(BaseCallbackHandler):
@@ -45,13 +45,16 @@ def on_chat_model_start(
     ) -> Any:
         """Run when Chat Model starts running."""
         self.model_parameters = kwargs.get("invocation_params", {})
+        self.metadata = kwargs.get("metadata", {})
 
         provider = self.model_parameters.get("_type", None)
         if provider in LANGCHAIN_TO_OPENLAYER_PROVIDER_MAP:
             self.provider = LANGCHAIN_TO_OPENLAYER_PROVIDER_MAP[provider]
             self.model_parameters.pop("_type")
+            self.metadata.pop("ls_provider", None)
+            self.metadata.pop("ls_model_type", None)
 
-        self.model = self.model_parameters.get("model_name", None)
+        self.model = self.model_parameters.get("model_name", None) or self.metadata.pop("ls_model_name", None)
         self.output = ""
         self.prompt = self._langchain_messages_to_prompt(messages)
         self.start_time = time.time()
@@ -82,17 +85,32 @@ def on_llm_end(self, response: langchain_schema.LLMResult, **kwargs: Any) -> Any
         self.end_time = time.time()
         self.latency = (self.end_time - self.start_time) * 1000
 
-        if response.llm_output and "token_usage" in response.llm_output:
-            self.prompt_tokens = response.llm_output["token_usage"].get("prompt_tokens", 0)
-            self.completion_tokens = response.llm_output["token_usage"].get("completion_tokens", 0)
-            self.total_tokens = response.llm_output["token_usage"].get("total_tokens", 0)
+        if self.provider == "OpenAI":
+            self._openai_token_information(response)
+        elif self.provider == "Ollama":
+            self._ollama_token_information(response)
 
         for generations in response.generations:
             for generation in generations:
                 self.output += generation.text.replace("\n", " ")
 
         self._add_to_trace()
 
+    def _openai_token_information(self, response: langchain_schema.LLMResult) -> None:
+        """Extracts OpenAI's token information."""
+        if response.llm_output and "token_usage" in response.llm_output:
+            self.prompt_tokens = response.llm_output["token_usage"].get("prompt_tokens", 0)
+            self.completion_tokens = response.llm_output["token_usage"].get("completion_tokens", 0)
+            self.total_tokens = response.llm_output["token_usage"].get("total_tokens", 0)
+
+    def _ollama_token_information(self, response: langchain_schema.LLMResult) -> None:
+        """Extracts Ollama's token information."""
+        generation_info = response.generations[0][0].generation_info
+        if generation_info:
+            self.prompt_tokens = generation_info.get("prompt_eval_count", 0)
+            self.completion_tokens = generation_info.get("eval_count", 0)
+            self.total_tokens = self.prompt_tokens + self.completion_tokens
+
     def _add_to_trace(self) -> None:
         """Adds to the trace."""
         name = PROVIDER_TO_STEP_NAME.get(self.provider, "Chat Completion Model")
@@ -109,7 +127,7 @@ def _add_to_trace(self) -> None:
             model_parameters=self.model_parameters,
             prompt_tokens=self.prompt_tokens,
             completion_tokens=self.completion_tokens,
-            metadata=self.metatada,
+            metadata=self.metadata,
         )
 
     def on_llm_error(self, error: Union[Exception, KeyboardInterrupt], **kwargs: Any) -> Any: