Pfam é unha base de datos de familias de proteínas na que se inclúen as súas anotacións e aliñamentos de secuencias múltiples xerados usando modelos de Markov ocultos.[1][2][3]
Para cada familia proteica incluída en Pfam pódese:
As descricións das familias Pfam poden ser consultadas polo público xeral usando Wikipedia.
Case o 80% das secuencias de proteínas contidas na UniProt Knowledgebase teñen polo menos unha correspondencia en Pfam.[4] Esta cifra denomínase cobertura de secuencias.
A base de dartos Pfam contén información sobre dominios e familias proteicas. Pfam-A é a porción revisada manualmente da base de datos que contén unhas 16.000 entradas. Para cada entrada almacénase un aliñamento de secuencias de proteínas e un modelo de Markov oculto. Estes modelos de Markov ocultos poden utilizarse para procurar información nas bases de datos de secuencias co paquete HMMER escrito por Sean Eddy.
Como as entradas en Pfam-A non cobren todas as proteínas coñecidas, proporcionouse ademais un suplemento xerado automaticamente chamado Pfam-B, o cal contiña un gran número de pequenas familias derivadas de agrupamentos producidos por un algoritmo chamado ADDA.[5] Aínda que son dunha calidade menor, as familias Pfam-B podían ser útiles cando non se encontraban familias nunha busca en Pfam-A. Non obstante, Pfam-B deixou de ofrecerse na versión 28.0.[6]
A base de datos iPfam[7] almacena a descrición de dominios de Pfam. Investiga se diferentes proteínas que son descritas xuntas na base de datos de estrutura de proteínas PDB están o suficientemente próximas como para potencialmente interaccionar.
A versión actual de Pfam é "Pfam 28.0" (maio de 2015; 16.230 familias).[8]