gwpl · April 28, 2024 23:39
diff --git a/README.md b/README.md
diff --git a/embeddings_algebra_anthropic_voyageai.py b/embeddings_algebra_anthropic_voyageai.py
 # https://docs.anthropic.com/claude/docs/embeddings

 import os
 import voyageai
 import numpy as np
 from scipy.spatial import distance
 from typing import List

 descriptions = "Queen, Woman, Man, King, Knight, Carpenter, Baker, girl, boy".split(", ")
 texts = descriptions

 # Needs VOYAGE_API_KEY in environment
 vo = voyageai.Client()
 computed_embeddings = vo.embed(texts, model="voyage-2", input_type="document")
 cached_embeddings = dict(zip(texts,computed_embeddings.embeddings))

 def embedding(key):
    # we convert list to np.array, so we can use `-`, `+` operators.
    return np.array(cached_embeddings[key])

 def cosine_similarity(embedding1, embedding2):
    return 1 - distance.cosine(embedding1, embedding2)
 def sim(e1, e2):
    return cosine_similarity(e1, e2)

 def similarities_to_embeddings(query_embedding: List[float], embeddings: List[List[float]], distance_metric="cosine") -> List[float]:
    return [cosine_similarity(query_embedding, embedding) for embedding in embeddings]

 queen = embedding("Queen")
 woman = embedding("Woman")
 man = embedding("Man")
 king = embedding("King")
 knight = embedding("Knight")
 carpenter = embedding("Carpenter")
 baker = embedding("Baker")
 girl = embedding("girl")
 boy = embedding("boy")

 descriptions = "queen, woman, man, king, knight, carpenter, baker, girl, boy".split(", ")

 # let's check!
 result = queen - woman + man
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-woman+man\" and ... = {}".format(dict(zip(descriptions, similarities))))

 # let's make another check!
 result = queen - girl + boy
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-girl+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))


 # let's make another check!
 result = queen - woman - girl + man + boy
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-woman-girl+man+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))

diff --git a/embeddings_algebra_ollama.py b/embeddings_algebra_ollama.py
 # https://ollama.com/blog/embedding-models

 import os
 import ollama
 import numpy as np
 from scipy.spatial import distance
 from typing import List

 def embedding(text: str) -> list[float]:
    response = ollama.embeddings(
      model='mxbai-embed-large',
      #model='nomic-embed-text',
      #model='snowflake-arctic-embed:335m',
      #model='all-minilm',
      prompt=text,
    )
    # we convert list to np.array, so we can use `-`, `+` operators.
    return np.array(response['embedding'])

 def cosine_similarity(embedding1, embedding2):
    return 1 - distance.cosine(embedding1, embedding2)
 def sim(e1, e2):
    return cosine_similarity(e1, e2)

 def similarities_to_embeddings(query_embedding: List[float], embeddings: List[List[float]], distance_metric="cosine") -> List[float]:
    return [cosine_similarity(query_embedding, embedding) for embedding in embeddings]

 queen = embedding("Queen")
 woman = embedding("Woman")
 man = embedding("Man")
 king = embedding("King")
 knight = embedding("Knight")
 carpenter = embedding("Carpenter")
 baker = embedding("Baker")
 girl = embedding("girl")
 boy = embedding("boy")

 descriptions = "queen, woman, man, king, knight, carpenter, baker, girl, boy".split(", ")

 # let's check!
 result = queen - woman + man
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-woman+man\" and ... = {}".format(dict(zip(descriptions, similarities))))

 # let's make another check!
 result = queen - girl + boy
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-girl+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))


 # let's make another check!
 result = queen - woman - girl + man + boy
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-woman-girl+man+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))

diff --git a/embeddings_algebra_openai.py b/embeddings_algebra_openai.py
 # https://www.phind.com/search?cache=tyogewfb0jzrit41eq6dufgr
 # https://cookbook.openai.com/examples/question_answering_using_embeddings

 import os
 import numpy as np
 from openai import OpenAI
 from scipy.spatial import distance
 from typing import List

 client = OpenAI(api_key=os.getenv('OPENAI_API_KEY'))

 def embedding(text: str) -> list[float]:
    response = client.embeddings.create(
        model='text-embedding-ada-002',
        input=text)
    # we convert list to np.array, so we can use `-`, `+` operators.
    return np.array(response.data[0].embedding)

 def cosine_similarity(embedding1, embedding2):
    return 1 - distance.cosine(embedding1, embedding2)
 def sim(e1, e2):
    return cosine_similarity(e1, e2)

 def similarities_to_embeddings(query_embedding: List[float], embeddings: List[List[float]], distance_metric="cosine") -> List[float]:
    return [cosine_similarity(query_embedding, embedding) for embedding in embeddings]

 queen = embedding("Queen")
 woman = embedding("Woman")
 man = embedding("Man")
 king = embedding("King")
 knight = embedding("Knight")
 carpenter = embedding("Carpenter")
 baker = embedding("Baker")
 girl = embedding("girl")
 boy = embedding("boy")

 descriptions = "queen, woman, man, king, knight, carpenter, baker, girl, boy".split(", ")

 # let's check!
 result = queen - woman + man
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-woman+man\" and ... = {}".format(dict(zip(descriptions, similarities))))

 # let's make another check!
 result = queen - girl + boy
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-girl+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))


 # let's make another check!
 result = queen - woman - girl + man + boy
 similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
 print("similarities between \"queen-woman-girl+man+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))

diff --git a/Example_Outputs.md b/Example_Outputs.md
	# https://docs.anthropic.com/claude/docs/embeddings

	import os
	import voyageai
	import numpy as np
	from scipy.spatial import distance
	from typing import List

	descriptions = "Queen, Woman, Man, King, Knight, Carpenter, Baker, girl, boy".split(", ")
	texts = descriptions

	# Needs VOYAGE_API_KEY in environment
	vo = voyageai.Client()
	computed_embeddings = vo.embed(texts, model="voyage-2", input_type="document")
	cached_embeddings = dict(zip(texts,computed_embeddings.embeddings))

	def embedding(key):
	# we convert list to np.array, so we can use `-`, `+` operators.
	return np.array(cached_embeddings[key])

	def cosine_similarity(embedding1, embedding2):
	return 1 - distance.cosine(embedding1, embedding2)
	def sim(e1, e2):
	return cosine_similarity(e1, e2)

	def similarities_to_embeddings(query_embedding: List[float], embeddings: List[List[float]], distance_metric="cosine") -> List[float]:
	return [cosine_similarity(query_embedding, embedding) for embedding in embeddings]

	queen = embedding("Queen")
	woman = embedding("Woman")
	man = embedding("Man")
	king = embedding("King")
	knight = embedding("Knight")
	carpenter = embedding("Carpenter")
	baker = embedding("Baker")
	girl = embedding("girl")
	boy = embedding("boy")

	descriptions = "queen, woman, man, king, knight, carpenter, baker, girl, boy".split(", ")

	# let's check!
	result = queen - woman + man
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-woman+man\" and ... = {}".format(dict(zip(descriptions, similarities))))

	# let's make another check!
	result = queen - girl + boy
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-girl+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))


	# let's make another check!
	result = queen - woman - girl + man + boy
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-woman-girl+man+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))
	# https://ollama.com/blog/embedding-models

	import os
	import ollama
	import numpy as np
	from scipy.spatial import distance
	from typing import List

	def embedding(text: str) -> list[float]:
	response = ollama.embeddings(
	model='mxbai-embed-large',
	#model='nomic-embed-text',
	#model='snowflake-arctic-embed:335m',
	#model='all-minilm',
	prompt=text,
	)
	# we convert list to np.array, so we can use `-`, `+` operators.
	return np.array(response['embedding'])

	def cosine_similarity(embedding1, embedding2):
	return 1 - distance.cosine(embedding1, embedding2)
	def sim(e1, e2):
	return cosine_similarity(e1, e2)

	def similarities_to_embeddings(query_embedding: List[float], embeddings: List[List[float]], distance_metric="cosine") -> List[float]:
	return [cosine_similarity(query_embedding, embedding) for embedding in embeddings]

	queen = embedding("Queen")
	woman = embedding("Woman")
	man = embedding("Man")
	king = embedding("King")
	knight = embedding("Knight")
	carpenter = embedding("Carpenter")
	baker = embedding("Baker")
	girl = embedding("girl")
	boy = embedding("boy")

	descriptions = "queen, woman, man, king, knight, carpenter, baker, girl, boy".split(", ")

	# let's check!
	result = queen - woman + man
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-woman+man\" and ... = {}".format(dict(zip(descriptions, similarities))))

	# let's make another check!
	result = queen - girl + boy
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-girl+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))


	# let's make another check!
	result = queen - woman - girl + man + boy
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-woman-girl+man+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))
	# https://www.phind.com/search?cache=tyogewfb0jzrit41eq6dufgr
	# https://cookbook.openai.com/examples/question_answering_using_embeddings

	import os
	import numpy as np
	from openai import OpenAI
	from scipy.spatial import distance
	from typing import List

	client = OpenAI(api_key=os.getenv('OPENAI_API_KEY'))

	def embedding(text: str) -> list[float]:
	response = client.embeddings.create(
	model='text-embedding-ada-002',
	input=text)
	# we convert list to np.array, so we can use `-`, `+` operators.
	return np.array(response.data[0].embedding)

	def cosine_similarity(embedding1, embedding2):
	return 1 - distance.cosine(embedding1, embedding2)
	def sim(e1, e2):
	return cosine_similarity(e1, e2)

	def similarities_to_embeddings(query_embedding: List[float], embeddings: List[List[float]], distance_metric="cosine") -> List[float]:
	return [cosine_similarity(query_embedding, embedding) for embedding in embeddings]

	queen = embedding("Queen")
	woman = embedding("Woman")
	man = embedding("Man")
	king = embedding("King")
	knight = embedding("Knight")
	carpenter = embedding("Carpenter")
	baker = embedding("Baker")
	girl = embedding("girl")
	boy = embedding("boy")

	descriptions = "queen, woman, man, king, knight, carpenter, baker, girl, boy".split(", ")

	# let's check!
	result = queen - woman + man
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-woman+man\" and ... = {}".format(dict(zip(descriptions, similarities))))

	# let's make another check!
	result = queen - girl + boy
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-girl+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))


	# let's make another check!
	result = queen - woman - girl + man + boy
	similarities = similarities_to_embeddings(result, [queen, woman, man, king, knight, carpenter, baker, girl, boy])
	print("similarities between \"queen-woman-girl+man+boy\" and ... = {}".format(dict(zip(descriptions, similarities))))