Kurzbeschreibung

EMBOSS (European Molecular Biology Open Software Suite) ist ein universelles Programmpaket zur Analyse von Gensequenzen, welches speziell für Anwender aus den Bereichen Molekularbiologie und Bioinformatik entwickelt wurde. Das Paket stellt zahlreiche Applikationen für unterschiedliche Anwendungsbereiche bereit, wie etwa Alignments, Datenbankrecherchen, Identifikation von Proteinmotiven, Restriktionsanalysen uvm. Alle EMBOSS Programme erlauben den direkten Zugriff auf Gensequenzen aus tagesaktuellen Online-Datenbanken (z.B. EMBL oder GenBank).

In der Installation des kiz wurden auch die mit EMBOSS assoziierten "EMBASSY" Programme integriert, wie z.B. das Phylogenie-Paket Phylip und das HMMER Paket zur Sequenzanalyse mittels Profile-Hidden-Markov-Modell-Methoden.

Kommunikations- und Informationszentrum (kiz)

  • Helpdesk

    Kontaktieren Sie uns bei Fragen und Problemen zu den Services des kiz:
    Mo - Fr  8 - 18 Uhr
    +49 (0)731/50-30000
    helpdesk(at)uni-ulm.de
    Kundenportal
    [mehr]

  • Service-Points

    An den Service-Points können Sie uns persönlich aufsuchen.
    [mehr]

  • Identitätsmanagement

    Self Service Funktionen des Identitätsmanagementsystems (IDM):

    • Berechtigungen verwalten
    • Dienste abonnieren
    • Passwörter ändern
    • ...

    IDM Self Services
    [mehr]

  • Literatursuche

  • kiz von A bis Z

    Etwa 400 Stichwörter führen Sie direkt zu einer einschlägigen Web-Seite des kiz.
    A-Z-Liste
    Wenn Sie ein Stichwort vermissen, geben Sie uns Nachricht: Redaktion

Verfügbarkeit an der Universität Ulm

Zielsystem/ZielgruppeVerfügbarkeit
bwUniCluster (Karlsruhe)Nein
bwForCluster JUSTUS (Ulm)Nein
kiz CUSS Linux Cluster (Ulm)Ja, nach dem Laden des entsprechenden Softwaremoduls.
kiz Linux Pools (Ulm)Ja, nach dem Laden des entsprechenden Softwaremoduls.
kiz Windows Pools (Ulm)Nein
Uni-Ulm-weiter LizenzzugriffJa. EMBOSS steht kostenlos zum Download zur Verfügung.
Externer LizenzzugriffJa. EMBOSS steht kostenlos zum Download zur Verfügung.
Softwarebezug StudierendeJa. EMBOSS steht kostenlos zum Download zur Verfügung.
Softwarebezug MitarbeiterJa. EMBOSS steht kostenlos zum Download zur Verfügung.

Nutzungsbedingungen und Lizenzvereinbarungen

EMBOSS ist Freie Software und steht unter der GNU General Public License (GPL). Die Software darf für jeden Zweck genutzt, studiert, bearbeitet und in ursprünglicher oder veränderter Form weiterverbreitet werden. Das schließt auch die kommerzielle Nutzung ein, sofern die Software, die auf Grundlage dieser Software entsteht, ebenfalls unter der GPL lizensiert wird.

Weitere Details zur Lizenz sind auf der entsprechenden Webseite des EMBOSS Projektes verfügbar.

Weiterführende Dokumentation

Ausführliche Dokumentationen zu EMBOSS gibt es auf den Webseiten des Projektes: http://emboss.sourceforge.net/

Anwender der mittlerweile nicht mehr unterstützten Software GCG finden auf den Webseiten des National Institutes of Health (NIH) Hinweise auf äquivalente EMBOSS Applikationen.

Spezifische Informationen zur kiz Installation und Verweise auf weiterführende Informationsquellen erhalten Sie über das Kommando

module help bio/emboss

Zugriff auf Software (CUSS-Cluster und Linux-Pools)

Zur Anpassung der Arbeitsumgebung für EMBOSS laden Sie das entsprechende Modul mit dem Kommando

module load bio/emboss 

Nach dem Laden des Moduls stehen Ihnen alle EMBOSS Applikationen in Ihrer Arbeitsumgebung zur Verfügung.

Das EMBOSS Paket stellt mehr als 200 Anwendungen für spezifische Anwendungsbereiche der Sequenzanalyse bereit. Zur Veranschaulichung wird hier exemplarisch eine interaktive EMBOSS Arbeitssitzung mit einer Restriktionsanalyse dargestellt (Eingaben des Anwenders sind in fetter Schrift gedruckt, die Ausgaben der Programme sind teilweise gekürzt):

Zunächst wird das EMBOSS Modul geladen:

user@host:~> module load bio/emboss

Mit dem EMBOSS Kommando showdb lassen sich alle im System konfigurierten Seqeuenz-Datenbanken auflisten:

user@host:~> showdb
Displays information on configured databases
# Name         Type ID  Qry All Comment
# ============ ==== ==  === === =======
pir P OK - - Protein Identification Resource.
refseqp P OK - - Database of protein information [...]
swall P OK - - A combined database of Swiss-Prot, [...]
swissprot P OK - - Database of protein sequences by SIB [...]
GENBANK       N OK - - GenBank NCBI IDs
embl N OK - - The EMBL nucleotide sequence database [...]
[...]

Informationen über Sequenzen mit bekannter Zugriffsnummer (hier: "GU480807") können mit dem infoseq Befehl direkt aus tagesaktuellen Online-Datenbanken (hier: GenBank) abgerufen werden:

user@host:~> infoseq GENBANK:GU480807
Display basic information about sequences
USA                  Database Name     Accession  [...] Description
GENBANK-id:GU480807  GENBANK   GU480807 GU480807   [...] Influenza A virus [...]

Die vollständige Sequenz lässt sich mittels seqret aus der Online-Datenbank GenBank abrufen. Die Sequenz wird hier in die Datei "gu480807.fasta" geschrieben. Anschließend wird der Inhalt dieser Datei mit dem Unix Kommando cat auf dem Bildschirm ausgegeben:

user@host:~> seqret
Reads and writes (returns) sequences
Input (gapped) sequence(s): GENBANK:GU480807
output sequence(s) [gu480807.fasta]: 
user@host:~> cat gu480807.fasta
>GU480807 GU480807.1 Influenza A virus (A/Hamburg/NY1580/2009(H1N1)) [...]
agcgaaagcaggtcaaatatattcaatatggagagaataaaagaactgagagatctaatg
tcgcagtcccgcactcgcgagatactcactaagaccactgtggaccatatggccataatc
aaaaagtacacatcaggaaggcaagagaagaaccccgcactcagaatgaagtggatgatg
[...]

Das Kommando wossname hilft, geeignete EMBOSS Komponenten für eine bestimmte Aufgabe zu finden (Suche nach Schlüsselwort, hier z.B. für Restriktionsanalysen):

user@host:~> wossname
Finds programs by keywords in their short description
Text to search for, or blank to list all programs: restriction
SEARCH FOR 'RESTRICTION'
frestboot     Bootstrapped restriction sites algorithm
frestdist     Distance matrix from restriction sites or fragments
frestml       Restriction site maximum Likelihood method
rebaseextract Process the REBASE database for use by restriction enzyme applications
recoder       Find restriction sites to remove (mutate) with no translation change
redata        Retrieve information from REBASE restriction enzyme database
remap         Display restriction enzyme binding sites in a nucleotide sequence
restover      Find restriction enzymes producing a specific overhang
restrict      Report restriction enzyme cleavage sites in a nucleotide sequence
showseq       Displays sequences with features in pretty format
silent        Find restriction sites to insert (mutate) with no translation change

Mit dem Kommando tfm ("The Fine Manual") lässt sich die vollständige Dokumentation zu einer EMBOSS Applikation auf dem Bildschirm ausgeben. (Bem.: In der Dokumentation kann man mit den Pfeiltasten und Bild hoch/runter navigieren. Beendet wird die Anzeige durch Drücken der q-Taste.):

user@host:~> tfm restover

Function

   Find restriction enzymes producing a specific overhang

Description

   restover identifies restriction enzymes from the REBASE database that
   create the specified overhang sequence when they cut the input
   nucleotide sequence(s). It writes an output file which shows the base
   number, restriction enzyme name, recognition site and cut positions.
   There are several options to control exactly what sites are reported
   and the format of the output file. Optionally, output in HTML may be
   generated.

Usage

   Here is a sample session with restover
   [...]

Mit restover wird nun die Sequenz nach Schnittstellen mit einem bestimmten Überhang (hier: "ggcc") durchsucht. Gelesen wird die Eingabesequenz aus der Datei "gu480807.fasta", die weiter oben mit dem seqret Kommando erzeugt wurde. Das Resultat wird auf dem Bildschirm ausgegeben (Bem.: Gibt man als Ausgabedatei "stdout" an, erfolgt die Ausgabe auf dem Bildschirm. Das gilt für alle EMBOSS Programme.):

user@host:~> restover
Find restriction enzymes producing a specific overhang
Input nucleotide sequence(s): gu480807.fasta                                                                                            
Overlap sequence: ggcc                                                                                                                  
Output file [gu480807.restover]: stdout
# Restrict of GU480807 from 1 to 2349
#                                                                                                                                       
# Minimum cuts per enzyme: 1
# Maximum cuts per enzyme: 2000000000
# Minimum length of recognition site: 2
# Number of hits with any overlap: 857
# Base Number   Enzyme          Site            5'      3'      [5'     3']
        110     CfrI            YGGCCR          110     114
        308     CfrI            YGGCCR          308     312
        474     CfrI            YGGCCR          474     478
        1226    CfrI            YGGCCR          1226    1230
        2294    CfrI            YGGCCR          2294    2298

Das remap Kommando erlaubt die Ausgabe der Sequenz mit Schnittstellen und Translation:

user@host:~> remap gu480807.fasta
Display restriction enzyme binding sites in a nucleotide sequence
Comma separated enzyme list [all]:
Minimum recognition site length [4]: 6
Output file [gu480807.remap]: stdout
GU480807
Influenza A virus (A/Hamburg/NY1580/2009(H1N1))
segment 1 polymerase PB2 (PB2) gene, complete cds.

                                                    Hin4I   BglII
                                                    Hin4I   XhoII
                                                    \       \
          agcgaaagcaggtcaaatatattcaatatggagagaataaaagaactgagagatctaatg
                   10        20        30        40        50        60       
          ----:----|----:----|----:----|----:----|----:----|----:----|
          tcgctttcgtccagtttatataagttatacctctcttattttcttgactctctagattac
                                               /                // /
                                               Hin4I            || SgeI
                                               Hin4I            |SgeI
                                                                XhoII
                                                                BglII

          S  E  S  R  S  N  I  F  N  M  E  R  I  K  E  L  R  D  L  M 
           A  K  A  G  Q  I  Y  S  I  W  R  E  *  K  N  *  E  I  *  C
            R  K  Q  V  K  Y  I  Q  Y  G  E  N  K  R  T  E  R  S  N  V
          ----:----|----:----|----:----|----:----|----:----|----:----|
           L  S  L  L  D  F  I  N  L  I  S  L  I  F  S  S  L  S  R  I
          X  R  F  C  T  L  Y  I  *  Y  P  S  F  L  L  V  S  L  D  L 
            A  F  A  P  *  I  Y  E  I  H  L  S  Y  F  F  Q  S  I  *  H

                        Hin4I
                        Hin4I
                        |Hpy178III
                        ||NruI    
                        |||  SgeI 
                        |||  | SgeI                MjaIV
                        |||  | |   SgeI            TscAI
                        |||  | |   | SgeI          |    NdeI
                        |||  | |   | | SgeI        |    |  CfrI
                        |||  | |   | | | SgeI      |    |  | BalI
                        \\\  \ \   \ \ \ \         \    \  \ \
          tcgcagtcccgcactcgcgagatactcactaagaccactgtggaccatatggccataatc
                   70        80        90        100       110       120      
          ----:----|----:----|----:----|----:----|----:----|----:----|
          agcgtcagggcgtgagcgctctatgagtgattctggtgacacctggtataccggtattag
           / / / / /      //              /        /      /  / /
           | | | | Hin4I  |Hpy178III      TscAI    MjaIV  |  | CfrI
           | | | | Hin4I  NruI                            |  BalI
           | | | SgeI                                     NdeI
           | | SgeI
           | SgeI
           SgeI

          S  Q  S  R  T  R  E  I  L  T  K  T  T  V  D  H  M  A  I  I 
           R  S  P  A  L  A  R  Y  S  L  R  P  L  W  T  I  W  P  *  S
            A  V  P  H  S  R  D  T  H  *  D  H  C  G  P  Y  G  H  N  Q
          ----:----|----:----|----:----|----:----|----:----|----:----|
           D  C  D  R  V  R  S  I  S  V  L  V  V  T  S  W  I  A  M  I
          T  A  T  G  C  E  R  S  V  *  *  S  W  Q  P  G  Y  P  W  L 
            R  L  G  A  S  A  L  Y  E  S  L  G  S  H  V  M  H  G  Y  Dr

[...]

Ansprechpartner

Bei Fragen und Problemen wenden Sie sich bitte an unseren Softwaresupport.