Projektets metod för identifiering av textåteranvändning bygger på mjukvaran BLAST (Basic Local Alignment Search Tool) som ursprungligen skapades inom bioinformatik för att jämföra information som innehåller brus, såsom aminosyror och DNA. I vårt projekt måste texterna först kodas så att BLAST kan behandla dem och identifiera överlappande sekvenser. Dessa matchande par samlas i kluster som innehåller alla förekommande fall av textåteranvändning. Med hjälp av metadata kring ort och datum kan sedan flöden i tid och rum kartläggas och analyseras. Metoden har redan visat sig framgångsrik på finländskt material (se www.comhis.fi). Vår ambitiösa målsättning nu är att dra samman tidningar från Finland och Sverige till en korpus och analysera överlappningarna. Vi kommer att kunna utveckla mjukvaran och dess tillämpning när de prövas mot nya material, tekniska utmaningar och forskningsfrågor. Projektet är metodologiskt banbrytande och det första som algoritmiskt studerar relationerna mellan den finska och svenska pressen.
Projektet omfattar alla tidningar utgivna i Finland från 1771 till 1918 och en stor andel tidningar utgivna, och digitaliserade, i Sverige från 1645 till 1906. Detta material läggs till vår korpus och kompletteras med digitala tidningar från svenska Språkbankens samling. På så vis kan forskningsmaterialet sträckas fram till 1918.