MỘt số VẤN ĐỀ di truyền họC 2 V. Phân tích gen và SẢn phẩm của gen



tải về 201.04 Kb.
trang1/2
Chuyển đổi dữ liệu30.08.2016
Kích201.04 Kb.
#28435
  1   2

MỘT SỐ VẤN ĐỀ DI TRUYỀN HỌC 2




V. PHÂN TÍCH GEN VÀ SẢN PHẨM CỦA GEN


V.1. Các kỹ thuật phân tích axit nucleic

V.1.1. Điện di phân tích ADN và ARN

Có nhiều phương pháp khác nhau có thể được sử dụng để phân tích ADN và ARN, nhưng cho đến nay điện di trên gel là phương pháp được sử dụng phổ biến hơn cả nhờ ưu điểm nhanh và tương đối đơn giản. Nguyên tắc của phương pháp là do: dưới tác động của điện trường, các phân tử ADN (thường tích điện âm) khác nhau về kích thước, điện tích, mức độ cuộn xoắn và dạng phân tử (mạch thẳng hay mạch vòng) sẽ di chuyển qua hệ mạng của gel từ cực âm (cathode) sang cực dương (anode) với tốc độ di chuyển khác nhau. Vì vậy, chúng dần dần tách nhau ra trên trường điện di, qua đó người ta có thể thu thập và phân tích được từng phân đoạn ADN hoặc gen riêng rẽ. Trên điện trường các phân đoạn ADN có kích thước càng nhỏ càng có tốc độ di chuyển trên điện trường nhanh hơn. Sau khi điện di kết thúc, các phân tử ADN có thể quan sát thấy nhờ sử dụng các thuốc nhuộm phát huỳnh quang, chẳng hạn như ethidium (chất này gắn kết với ADN bằng cách cài vào khe ở giữa các nucleotit). Mỗi một băng điện di thường phản ánh một tập hợp các phân tử ADN có cùng kích thước.

Có hai loại vật liệu làm gel được sử dụng phổ biến trong điện di, đó là agarosepolyacrylamid. Trong đó, gel polyacrylamid có khả năng phân tách cao, nhưng khoảng kích thước ADN có thể phân tích hẹp. Vì vậy, điện di trên gel polyacrylamid có thể phân tách được các phân đoạn ADN khác nhau thậm trí chỉ một cặp nucleotit (1 bp) duy nhất, nhưng thường chỉ để phân tích các đoạn ADN kích thước vài trăm bp. Còn gel agarose có khả năng phân tách thấp hơn đối với các phân đoạn ADN kích thước nhỏ, nhưng rất hiệu quả khi phân tách các phân đoạn ADN kích thước lớn tới hàng chục hoặc hàng trăm kb (1 kb = 1000 bp).

Các phân đoạn ADN kích thước lớn không thể “lọt” qua các lỗ có kích thước nhỏ trên các bản gel, kể cả gel agarose. Thay vào đó, chúng sẽ “trườn” qua mạng lưới của gel bằng việc đầu này của phân tử đi trước, còn đầu kia theo sau. Kết quả là các phân đoạn ADN kích thước lớn (từ 30 đến 50 kb) có tốc độ di chuyển trên điện trường gần như tương đương và khó phân tách được bằng phương pháp điện di thông thường. Đối với các phân đoạn ADN kích thước lớn như vậy, người ta có thể phân tách bằng việc sử dụng phương pháp điện di xung trường (pulsed-field gel electrophoresis). Trong phương pháp này, người ta sử dụng 2 cặp điện cực nằm chéo góc trên bản điện di (hình 9). Việc “bật” và “tắt” luân phiên 2 cặp điện cực sẽ làm cho các phân đoạn ADN lớn thay đổi chiều di chuyển như mình họa trên hình vẽ. Các phân đoạn ADN có kích thước càng lớn càng chậm hơn trong quá trình thay đổi chiều di chuyển. Nhờ vậy, các phân đoạn có kích thước khác nhau sẽ phân tách ra khỏi nhau trong quá trình di chuyển. Kỹ thuật điện di xung trường trong thực tế có thể sử dụng để xác định được kích thước đầy đủ của nhiễm sắc thể vi khuẩn, hoặc nhiễm sắc thể các loài sinh vật nhân chuẩn bậc thấp, như nấm men. Những loài này có kích thước hệ gen khoảng vài Mb.

Điện di không những có thể phân tách các phân đoạn ADN khác nhau về kích thước mà cả về hình dạng và cấu hình không gian của chúng. Các phân tử ADN ở dạng mạch vòng giãn xoắn hoặc bị “đứt gãy” ở một số nucleotit di chuyển chậm hơn trên trường điện di so với các phân tử ADN ở dạng mạch thẳng có cùng khối lượng. Tương tự như vậy, các phân tử ADN ở dạng siêu xoắn, kích thước và thể tích thu nhỏ thường di chuyển nhanh hơn trên trường điện di so với các phân tử ADN dạng mạch vòng giãn xoắn hoặc có mức độ cuộn xoắn thấp hơn có cùng khối lượng.

Kỹ thuật điện di cũng được sử dụng để phân tách các phân tử ARN. Các phân đoạn ADN sợi kép mạch thẳng có cấu trúc bậc hai đồng nhất nên tốc độ di chuyển trên trường điện di tương quan tỉ lệ thuận với khối lượng phân tử của chúng. Cũng giống như ADN, các phân tử ARN cũng thường tích điện âm, nhưng ngoài cấu trúc cơ bản ở dạng mạch đơn, các cấu trúc bậc 2 và 3 của phân tử ARN có ảnh hưởng đến tốc độ di chuyển của chúng trên trường điện di. Để hạn chế điều này, thông thường người ta phải xử lý ARN với một số hóa chất ngăn cản sự hình thành các liên kết cục bộ trong phân tử ARN, chẳng hạn như glyoxal. Hợp chất này liên kết với nhóm -NH2 trong các bazơ nitơ và ngăn cản sự kết cặp của các nucleotit. Các phân tử ARN được xử lý glyoxal không hình thành được các cấu trúc bậc 2 và 3 vì vậy có tốc độ di chuyển trên trường điện di dường như đơn thuần phụ thuộc vào khối lượng phân tử của chúng.



V.1.2. Sử dụng enzym giới hạn trong phân tích ADN

Hầu hết các phân tử ADN trong tự nhiên đều lớn hơn nhiều so với kích thước có thể thao tác và phân tích một cách thuận lợi trong phòng thí nghiệm. Trong các tế bào, phần lớn các nhiễm sắc thể thường là một phân tử ADN dài chứa hàng trăm thậm trí hàng nghìn gen khác nhau. Vì vậy, để có thể phân lập và phân tích từng gen, người ta phải cắt các phân tử ADN kích thước lớn thành các phân đoạn nhỏ. Công việc này được thực hiện bởi một nhóm các enzym đặc biệt gọi là enzym giới hạn.

Tất cả các enzym giới hạn đều có hai đặc tính: 1) nhận biết một trình tự đặc hiệu trên phân tử ADN (gọi là trình tự giới hạn); và 2) cắt bên trong phân tử ADN tại vị trí đặc hiệu (hoặc ngay tại vị trí giới hạn như đối với nhóm enzym giới hạn loại II; hoặc cách vị trí giới hạn một số nucleotit nhất định như đối với các nhóm enzym giới hạn thuộc các nhóm I và III). Trong các nhóm enzym giới hạn, nhóm thường được dùng trong các nghiên cứu di truyền phân tử và kỹ nghệ gen là nhóm II nhờ vị trí và trình tự cắt của chúng được xác định rõ. Trong phạm vi giáo trình này, vì vậy chúng ta chỉ đề cập đến việc ứng dụng của nhóm enzym giới hạn này. Các trình tự giới hạn của enzym nhóm II thường gồm 4 - 8 bp, thông thường có tính đối xứng và vị trí cắt thường nằm trong trình tự giới hạn này. Ví dụ như enzym giới hạn EcoRI được tìm thấy ở vi khuẩn E. coli có trình tự giới hạn là 5’-GAATTC-3’ với vị trí cắt ở giữa G và A. Tên enzym gồm 3 ký tự đầu chỉ tên loài vi khuẩn mà từ đó enzym được tìm thấy (Eco = Escherichia coli), các ký tự sau chỉ tên của chủng vi khuẩn và số thứ tự của enzym được tìm thấy ở loài vi khuẩn đó (EcoRI là enzym giới hạn đầu tiên được tìm thấy ở E. coli).

Một enzym giới hạn có trình tự giới hạn gồm 6 bp giống EcoRI thông thường được trông đợi sẽ có trung bình một vị trí cắt trong một đoạn trình tự có kích thước khoảng 4 kb (bởi theo nguyên tắc xác suất tại một vị trí nhất định xác suất để có một loại nucleotit nhất định là 1/4, vì vậy xác suất để có một trình tự nhất định gồm 6 bp sẽ là 1/46 = 1/4096). Giả sử có một phân tử ADN mạch thẳng có 6 vị trí cắt của enzym EcoRI. Việc cắt phân tử ADN này bằng EcoRI sẽ cho ra 7 phân đoạn ADN khác nhau. Do đó, khi điện di trên gel sản phẩm cắt, 7 phân đoạn ADN sẽ phân tách nhau ra do chúng khác nhau về khối lượng (vì chúng khác nhau về thành phần và trình tự các nucleotit). Như vậy, một phân đoạn ADN sẽ tương ứng với một vùng của phân tử ADN ban đầu.

Việc sử dụng một enzym giới hạn khác, chẳng hạn HindIII cũng có trình tự giới hạn gồm 6 bp, nhưng có trình tự giới hạn thay đổi (5’-AAGCTT-3’) sẽ cho ra các sản phẩm cắt khác với khi sử dụng EcoRI (với cùng phân tử ADN ban đầu). Như vậy, việc sử dụng đồng thời nhiều enzym giới hạn sẽ tạo ra một kiểu hình phổ điện di các phân đoạn cắt giới hạn đặc thù đối với từng gen phân tích.

Đối với một số enzym giới hạn khác, chẳng hạn như Sau3A1 (tìm thấy ở vi khuẩn Staphylococcus aureus) có trình tự giới hạn ngắn hơn (5’-GATC-3’), nên tần số cắt của chúng thường cao hơn các enzym có trình tự giới hạn dài. Theo xác suất, Sau3A1 có trung bình 1 vị trí cắt trong một đoạn trình tự khoảng 250 bp (1/44 = 1/256). Ngược lại, enzym NotI có trình tự giới hạn dài (5’-GCGGCCGC-3’) trung bình cứ một đoạn trình tự dài khoảng 65 kb, mới có 1 vị trí cắt (1/48 = 1/65536).

Các enzym giới hạn không chỉ khác nhau về trình tự giới hạn và độ dài đoạn trình tự giới hạn đặc trưng của chúng, mà chúng còn khác nhau về cách “cắt” phân tử ADN. Chẳng hạn như enzym HpaI tạo ra các phân tử ADN dạng đầu bằng (đầu tù), còn các enzym EcoRI, HindIII và PstI cắt phân tử ADN tạo ra các phân đoạn có đầu dính. Sở dĩ gọi là “đầu dính” bởi phần các trình tự ở hai đầu sau khi được enzym cắt ra bổ trợ với nhau theo nguyên tắc Chargaff và vì vậy chúng có xu hướng “dính” trở lại với nhau, hoặc với các phân tử ADN được cắt bởi cùng một loại enzym giới hạn. Tính chất này được ứng dụng rộng rãi trong công nghệ ADN tái tổ hợp và các kỹ thuật tách dòng phân tử.

V.1.3. Các phương pháp lai phân tử và mẫu dò

Các phân tử ADN sợi kép có một tính chất đặc biệt là khả năng biến tính (phân tách thành hai mạch đơn) và hồi tính (hai mạch đơn có trình tự bổ trợ có xu hướng liên kết trở lại khi vắng mặt các tác nhân gây biến tính). Khả năng liên kết bổ trợ giữa các bazơ nitơ cũng cho phép hai mạch ADN có nguồn gốc khác nhau nhưng có trình tự bổ trợ liên kết với nhau trong điều kiện phù hợp (về nhiệt độ, độ pH, ion hóa …) để tạo nên một phân tử ADN mới. Hiện tượng liên kết như vậy cũng có thể xảy ra giữa hai mạch ADN với nhau, hoặc giữa hai mạch ARN hoặc giữa ADN và ARN. Phân tử axit nucleic sợi kép mới hình thành được gọi là phân tử lai và quá trình kết cặp giữa các bazơ thuộc hai mạch đơn axit nucleic có nguồn gốc khác nhau theo nguyên tắc bổ trợ như vậy được gọi là quá trình lai phân tử.

Nhiều kỹ thuật trong nghiên cứu di truyền phân tử được dựa trên nguyên tắc lai phân tử. Chẳng hạn, bằng nguyên tắc này người ta có thể dùng một trình tự ADN biết trước để xác định một trình tự bổ trợ tương ứng có trong hệ gen của mẫu phân tích. Phân đoạn ADN có trình tự biết trước dùng trong phản ứng lai như vậy được gọi là mẫu dò. Các mẫu dò có thể có nguồn gốc từ các phân đoạn ADN trong tự nhiên hoặc được tổng hợp theo nguyên tắc hóa học, và để nhận biết được chúng, các mẫu dò thường được đánh dấu với các chất phóng xạ hoặc phát huỳnh quang (ở đây, gọi tắt là chất phát quang).

Có hai phương pháp đánh dấu mẫu dò ADN. Phương pháp thứ nhất dùng nguyên tắc tổng hợp hóa học phân tử ADN mới với tiền chất là các phân tử đánh dấu. Phương pháp thứ hai là gắn một phân tử đánh dấu vào đuôi của một trình tự ADN có sẵn. Chẳng hạn, bằng việc sử dụng enzym polynucleotide kinase, người ta có thể bổ sung nhóm phosphat  của ATP vào nhóm 5’-OH của một phân tử ADN định đánh dấu. Nếu nhóm phosphat này được đánh dấu bằng đồng vị phóng xạ 32P thì phân tử ADN sẽ được dánh dấu phóng xạ.

Phương pháp đánh dấu ADN thứ hai (sử dụng các tiền chất đánh dấu) thường được thực hiện dựa trên phản ứng PCR, hoặc đôi khi chỉ cần sử dụng các đoạn mồi ngắn rồi cho enzym ADN polymerase thực hiện phản ứng kéo dài chuỗi. Các tiền chất đánh dấu được sử dụng thường là 1 trong 4 loại nucleotit được cải biến thành dạng được đánh dấu bằng cách gắn với các nhóm chất phát quang hoặc nguyên tử phóng xạ. Với phương pháp này, khoảng 25% nucleotit trong phân tử ADN được đánh dấu và điều đó đủ đáp ứng hầu hết các nhu cầu nghiên cứu khác nhau.

Các phân tử ADN đánh dấu với các tiền chất phát quang được phát hiện bằng cách chiếu xạ mẫu ADN với ánh sáng UV có bước sóng phù hợp và đo ở bước sóng phát xạ tương ứng. Các phân tử ADN được đánh dấu phóng xạ thường được phát hiện bằng cách chụp mẫu ADN với phim tia X, hoặc đo bằng máy khuếch đại tín hiệu hạt  từ các nguyên tố phóng xạ 32P và 35S (đây là hai nguyên tố phóng xạ được sử dụng phổ biến để dánh dấu ADN).

Trong các nghiên cứu di truyền học phân tử hiện nay, có nhiều cách để xác định các phân đoạn ADN và ARN đặc hiệu dựa trên các phương pháp lai. Ở đây, chúng ta chỉ đề cập đến hai phương pháp được dùng phổ biến:

Xác định các phân đoạn ADN và ARN bằng điện di và mẫu dò

Phương pháp sử dụng mẫu dò kết hợp với điện di là một phương pháp cơ bản có thể giúp xác định mức độ phổ biến hoặc kích thước của một đoạn trình tự ADN hoăc ARN được quan tâm nghiên cứu. Chẳng hạn như bằng kỹ thuật này, người ta có thể xác định và so sánh được mức biểu hiện của một gen ở các loại tế bào và mô khác nhau thông qua định lượng bản phiên mã mARN tương ứng của gen đó tại các tế bào và mô tương ứng; hay như để xác định kích thước của một đoạn ADN cắt giới hạn mang trình tự gen được quan tâm nghiên cứu.

Giả sử chúng ta cắt hệ gen của nấm men bằng enzym giới hạn EcoRI và cần xác định được kích thước của phân đoạn ADN cắt giới hạn mang trình gen A. Sản phẩm ADN tổng số sau khi được cắt bằng EcoRI sẽ tạo ra một số lượng lớn các phân đoạn có kích thước xấp xỉ 4 kb (vì 46 = 4096 bp). Vì vậy, nếu đem sản phẩm cắt giới hạn nhuộm với EtBr, thì sản phẩm điện di sẽ là một dải các phân đoạn liên tục có kích thước xấp xỉ 4 kb, và không thể xác định được chính xác phân đoạn nào mang gen A. Trong trường hợp đó, kỹ thuật thẩm tách Southern (còn gọi là lai Southern) có thể được dùng để xác định phân đoạn mang gen đó. Lúc này, người ta sẽ đem sản phẩm cắt giới hạn ngâm vào một dung dịch có tính kiềm để làm biến tính các phân đoạn ADN sợi kép. Các phân đoạn này sau đó được chuyển sang một màng tích điện dương gọi là màng “thẩm tách” theo hình thức “đóng dấu”. Nghĩa là các phân đoạn ADN định vị trên màng thẩm tách sẽ tương ứng với các phân đoạn định vị trên gel điện di. Các phân đoạn ADN gắn trên màng thẩm tách sau đó được ủ với mẫu dò là phân đoạn ADN chứa một đoạn trình tự đặc trưng bổ trợ với trình tự của gen A. Quá trình ủ được tiến hành trong điều kiện về nhiệt độ và nồng độ muối tương ứng với sự biến tính và hồi tính của axit nucleic. Trong điều kiện như đó, các mẫu dò sẽ chỉ lai đặc hiệu với phân đoạn ADN mang gen A. Do các phân đoạn gen có kích thước thường lớn hơn nhiều so với mẫu dò, nên khả năng hồi tính khó xảy ra hơn khả năng lai với mẫu dò. Sau đó, nhờ phương pháp phóng xạ tự chụp (mẫu dò được đánh dấu phóng xạ), các phân đoạn ADN bắt cặp với các mẫu dò có thể được xác định và phân lập rõ ràng. Các phân đoạn này chính là các phân đoạn mang trình tự gen A cần phân tích.

Một phương pháp tương tự như vậy cũng có thể được áp dụng trực tiếp để phân tích các sản phẩm phiên mã của gen là mARN, và được gọi là phương pháp thẩm tách Northern (lai Northern). Tuy vậy, vì so với ADN các phân tử mARN thường có kích thước ngắn hơn (khoảng 5 kb), nên trong thẩm tách Northern, các phân tử mARN không cần cắt bằng enzym giới hạn (nếu có cắt thì số vị trí cắt giới hạn của một enzym trên phân tử mARN thường thấp). Các phân tử mARN sau khi phân tách bằng điện di được chuyển lên màng tích điện dương và lai với các mẫu dò ADN có trình tự bổ trợ tương ứng thường được đánh dấu phóng xạ (trong trường hợp này, sản phẩm lai là do sự kết cặp của các bazơ nitơ thuộc hai mạch ARN và ADN có trình tự bổ trợ).

Trong thực tiễn nghiên cứu, phương pháp thẩm tách Northern thường được sử dụng để định lượng một loại phân tử mARN nhất định nào đó có trong một mẫu phân tích, hơn là để xác định kích thước của nó. Lượng mARN được xác định được xem như thông số cơ bản phản ánh mức độ biểu hiện của gen mã hóa tương ứng. Chẳng hạn như, bằng phương pháp thẩm tách Northern, các nhà nghiên cứu có thể đánh giá được ảnh hưởng của một tác nhân phiên mã nào đó đến sự biểu hiện của một gen nhất định khi tiến hành so sánh lượng mARN do gen đó mã hóa có trong các tế bào được xử lý và không được xử lý với tác nhân phiên mã. Tương tự như vậy, kỹ thuật này cho phép xác định và so sánh mức độ biểu hiện của các gen khác nhau ở các loại tế bào, mô và cơ quan khác nhau của cùng một cơ thể trong cùng một giai đoạn hoặc ở các giai đoạn khác nhau của quá trình phát triển cơ thể.

Trong kỹ thuật thẩm tách Northern, mẫu dò thường được đưa vào phản ứng lai với một lượng dư vừa đủ để đảm bảo lượng phân tử lai tạo thành tương ứng với lượng mARN có mặt trong các mẫu nghiên cứu. Hay nói cách khác, qua lượng sản phẩm lai, có thể định lượng được lượng mARN.

Nguyên lý của các phương pháp lai Northern và Southern cũng chính là cơ sở của các kỹ thuật phân tích gen bằng vi dãy phản ứng (microarray) được phát triển và ngày các được sử dụng rộng rãi trong các nghiên cứu di truyền học phân tử gần đây. Trong các phương pháp microarray, các mẫu dò thường là các đoạn cADN được tạo ra từ việc phiên mã ngược các phân tử mARN tương ứng được tách chiết từ các mô hoặc tế bào. Các mẫu dò này sau đó được tiến hành lai với một dãy các phân tử ADN, trong đó mỗi dãy thường liên quan đến một hoặc một số gen khác nhau trong cơ thể sinh vật nghiên cứu. Cường độ biểu hiệu của sản phẩm lai (nhờ sự có mặt của các phân tử đánh dấu) ở các dãy khác nhau sẽ góp phần phản ánh mức độ biểu hiện khác nhau của các gen phân tích.

V.1.4. Tách dòng phân tử và xây dựng thư viện hệ gen

Khái niệm về tách dòng phân tử và thư viện hệ gen

Tách dòng phân tử (molecular cloning) là khái niệm chỉ một nhóm các phương pháp được sử dụng để: i) phân lập một một trình tự gen (ADN) đặc hiệu từ hỗn hợp các phân tử ADN ban đầu được tách chiết từ các mẫu sinh học vốn có cấu trúc phức tạp, kích thước lớn; và ii) khuếch đại (sao chép) trình tự lên một số lượng lớn đủ để có thể tiến hành phân tích về cấu trúc và chức năng của gen tương ứng.

Khả năng tinh sạch các đoạn gen (ADN) đặc hiệu có số lượng đủ lớn là cần thiết để có thể “thao tác” các đoạn gen đó vì các mục tiêu nghiên cứu khác nhau. Chẳng hạn, từ các phân đoạn ADN được tách dòng, người ta có thể tạo ra các phân tử ADN tái tổ hợp mang các phân đoạn ADN mang nguồn gốc khác nhau. Các phân tử ADN tái tổ hợp mới có thể làm thay đổi mức độ biểu hiện bình thường của một gen (chẳng hạn bằng việc dung hợp giữa một trình tự mã hóa của một loài này với trình tự promoter của một loài khác) hoặc thậm chí mã hóa tổng hợp một loại protein “dung hợp” mới (protein lai) mang các trình tự axit amin từ các protein có nguồn gốc khác nhau. Hiện nay, các kỹ thuật tách dòng phân tử (bao gồm cả PCR) đã trở thành các công cụ thiết yếu trong nghiên cứu về sự điều hòa và biểu hiện của các gen và hệ gen ở các loài sinh vật khác nhau.

Quá trình tách dòng ADN và tạo nên các phân tử ADN tái tổ hợp điển hình thường liên quan đến việc sử dụng các véctơ là trình tự mang thông tin điều khiển hoạt động nhân lên (khuếch đại) và/hoặc biểu hiện trong tế bào của phân tử ADN tái tổ hợp mang đoạn ADN cài (đoạn trình tự được phân lập) bao gồm trình tự gen được quan tâm nghiên cứu. Các “công cụ” chính để tạo nên các phân tử ADN tái tổ hợp là các enzym giới hạn giúp cắt các phân tử ADN tại các vị trí xác định và các enzym nối cho phép ghép nối các phân đoạn ADN có nguồn gốc khác nhau với nhau. Bằng việc tạo nên các phân tử ADN tái tổ hợp có thể tự nhận lên trong tế bào chủ, một đoạn ADN cài xác định nào đó có thể được phân lập, tinh sạch và nhân lên thành một số lượng lớn các bản sao.

Tiếp theo đây, chúng ta sẽ mô tả bằng cách nào các phân tử ADN được cắt, tái tổ hợp và nhân lên, đồng thời đề cập đến việc xây dựng thư viện hệ gen gồm tập hợp các phân tử ADN lai chứa các đoạn cài xuất phát từ một hệ gen cần được thiết lập để phục vụ cho việc nghiên cứu, phân tích một hệ gen. Thông thường một thư viện hệ gen được thiết lập bằng việc sử dụng chung cùng một loại véctơ mang các phân đoạn ADN cài khác nhau. Chúng ta sẽ thấy bằng cách nào các phân đoạn ADN đặc hiệu có thể được xác định và phân lập từ các thư viện hệ gen.

Tách dòng ADN trong các véctơ plasmit

Sau khi một phân đoạn ADN được cắt khỏi một phân tử ADN có kích thước lớn hơn bằng enzym giới hạn, phân đoạn ADN đó cần được “cài” vào một véctơ để có thể nhân lên. Hay nói cách khác là một phân đoạn ADN cần được cài vào một phân tử ADN thứ hai (véctơ) để có thể nhân lên được trong tế bào chủ như đã nói ở trên. Cho đến nay, tế bào chủ được sử dụng rộng rãi nhất để nhân lên các đoạn ADN trong công nghệ ADN tái tổ hợp là vi khuẩn E. coli.

Các véctơ ADN điển hình thường có 3 đặc tính:


  1. Chúng phải chứa một trình tự khởi đầu sao chép (tái bản), cho phép chúng tự sao chép độc lập với nhiễm sắc thể của tế bào chủ.

  2. Chúng phải mang một dấu chuẩn chọn lọc cho phép dễ dàng xác định và phân lập được các tế bào mang véctơ tái tổ hợp (mang đoạn ADN cài) với các tế bào không mang véctơ tái tổ hợp.

  3. Có vị trí cắt của một hoặc nhiều enzym giới hạn khác nhau. Đây chính là vị trí cài của phân đoạn ADN cần tách dòng vào véctơ.

Véctơ tách dòng phổ biến nhất là các phân tử ADN sợi kép, mạch vòng kích thước nhỏ (khoảng 3 kb) được gọi là các plasmit. Các véctơ này phần lớn có nguồn gốc từ các loài vi khuẩn và một số từ các sinh vật nhân chuẩn đơn bào (nấm men). Trong nhiều trường hợp, các phân tử ADN này trong tự nhiên đã mang sẵn các gen mã hóa tính kháng chất kháng sinh. Như vậy, các plasmid trong tự nhiên đã có sẵn hai thuộc tính là: khả năng tự sao chép trong tế bào chủ và có trình tự dấu chuẩn chọn lọc. Ngoài ra, các véctơ plasmit còn một ưu điểm nữa là chúng có thể đồng thời tồn tại nhiều bản sao trong tế bào. Điều này có thể giúp khuếch đại và phân lập được một số lượng lớn một phân đoạn ADN nào đó từ một quần thể tế bào nhỏ.

Trước đây, một số véctơ plasmit chỉ có một vị trí cắt của enzym giới hạn duy nhất. Cùng với thời gian, cấu trúc của các véctơ plasmit được cải tiến theo hướng cắt bỏ bớt các trình tự không cần thiết và gắn thêm vào đoạn trình tự có thể được cắt bằng nhiều loại enzym giới hạn khác nhau. Vị trí trên véctơ mang đoạn trình tự như vậy được gọi là vị trí đa tách dòng (polycloning site). Có những vị trí đa tách dòng hiện nay có kích thước ngắn nhưng có thể được cắt bởi trên 20 loại enzym giới hạn khác nhau. Nhờ đặc tính này, một véctơ có thể được dùng để tách dòng nhiều phân đoạn ADN có nguồn gốc khác nhau. Trên cơ sở các nguyên tắc tương tự, ngoài véctơ plasmit, hiện nay người ta đã phát triển được nhiều loại véctơ khác nhau có nguồn gốc phagơ, hoặc lai giữa vi khuẩn - phagơ (như phagemid, cosmid …), hoặc có nguồn gốc từ nấm men (ví dụ: YAC).

Việc cài một phân đoạn ADN vào một véctơ thường là một công việc tương đối đơn giản. Người ta thường sử dụng cùng một loại enzym giới hạn để cắt véctơ và đoạn ADN cài. Chẳng hạn như việc sử dụng enzym EcoRI sẽ cắt và chuyển véctơ từ dạng “vòng” sang dạng “mạch thẳng” có hai đầu dính. Do được cắt bởi cùng enzym giới hạn, nên đoạn ADN cài cũng có hai đầu dính với trình tự bổ trợ với trình tự đầu dính của véctơ. Các đầu dính này sẽ liên kết véctơ và đoạn ADN cài lại với nhau hình thành nên một phân tử ADN mạch vòng mới (phân tử ADN tái tổ hợp) chỉ còn thiếu hai liên kết phosphodieste duy nhất còn lại ở mỗi mạch. Hai liên kết này sẽ được “hàn” kín nhờ sử dụng enzym ADN ligase trong sự có mặt của ATP. Để hạn chế khả năng gắn kết lại của hai đầu dính của chính véctơ (vì hai đầu dính này có trình tự bổ trợ) sau khi được cắt bởi enzym giới hạn, người ta thường cho lượng ADN cài dư thừa so với véctơ để phần lớn các véctơ sau khi gắn lại là các véctơ tái tổ hợp mang các đoạn ADN cài.

Một số loại véctơ không những cho phép phân lập và tinh sạch được một phân đoạn gen nào đó, mà còn có thể điều hòa sự biểu hiện của gen nằm trong phân đoạn ADN cài. Những véctơ như vậy được gọi là các véctơ biểu hiện. Các véctơ này thường phải chứa trình tự promoter nằm ngược dòng sát với vị trí cài gen. Nếu vùng mã hóa của gen (không chứa promoter) được gắn vào véctơ theo đúng chiều khung đọc của gen, thì gen cài sẽ được phiên mã thành mARN và dịch mã thành protein trong tế bào chủ. Các véctơ biểu hiện thường được sử dụng để biểu hiện các gen đột biến hoặc các gen lai để tiến hành phân tích chức năng của chúng. Chúng cũng có thể được dùng để sản xuất một lượng lớn một loại protein nào đó vốn không thu được hiệu suất tương tự bằng các con đường tự nhiên. Ngoài ra, các promoter trong các véctơ biểu hiện có thể được lựa chọn sao cho sự biểu hiện của gen cài có thể được điều hòa bằng việc bổ sung một hợp chất đơn giản vào môi trường nuôi cấy (như một loại đường hoặc axit amin chẳng hạn). Việc có thể điều khiển chủ động sự biểu hiện của một gen nào đó có ý nghĩa quan trọng, đặc biệt đối với các gen gây độc.



Biến nạp các véctơ ADN vào tế bào chủ

Biến nạp là quá trình ở đó một cơ thể chủ có thể tiếp nhận một phân tử ADN ngoại lai từ môi trường bên ngoài. Một số vi khuẩn (trong đó không có E. coli) có khả năng biến nạp tự nhiên được gọi là các vi khuẩn khả biến di truyền. Vi khuẩn E. coli có thể trở nên khả biến khi được xử lý với ion Ca2+. Mặc dù cơ chế khả biến chưa được biết đầy đủ, nhưng dường như ion Ca2+ bao bọc lại các điện tích âm trên phân tử ADN và tăng cường khả năng của chúng xuyên qua màng tế bào. Các tế bào được xử lý với Ca2+ vì vậy được gọi là các tế bào khả biến. Người ta có thể sử dụng một chất kháng sinh mà véctơ plasmid mang gen dấu chuẩn mã hóa tính kháng chất kháng sinh đó để chọn lọc được các thể mang plasmid tái tổ hợp. Các tế bào mang véctơ tái tổ hợp có thể sinh trưởng trong môi trường chứa chất kháng sinh, trong khi các tế bào khác thì không.

Thông thường quá trình biến nạp có hiệu suất không cao. Chỉ có một tỉ lệ nhỏ các tế bào được xử lý biến nạp có thể tiếp nhận được plasmid tái tổ hợp. Nhưng, chính hiệu quả biến nạp thấp giúp hầu hết các tế bào mang véctơ tái tổ hợp thường chỉ tiếp nhận một plasmid duy nhất. Thuộc tính này giúp cho các tế bào biến nạp và dòng tế bào do chúng sinh ra (do phân chia trực phân) chỉ mang một véctơ ADN tái tổ hợp duy nhất và cho phép các nhà nghiên cứu thể phân lập và tinh sạch được các gen hoặc hoặc sản phẩm của các gen riêng rẽ từ hỗn hợp biến nạp mang cả các phân tử ADN khác.

Thiết lập thư viện hệ gen

Đối với các hệ gen đơn giản, kỹ thuật tách dòng thường khá đơn giản. Chẳng hạn như với hệ gen một số virut có kích thước khoảng 10 kb, người ta có thể trực tiếp tách chiết ADN, cắt chúng bằng enzym giới hạn rồi tiến hành phân tích điện di. Các phân đoạn ADN tách biệt trên gel điện di được cắt khỏi gel, tinh sạch rồi cài vào các véctơ.

Trong khi đó, đối với các hệ gen phức tạp, kích thước lớn (như hệ gen người), việc cắt ADN tổng số bằng enzym giới hạn rồi phân tích điện di thường dẫn đến sự hình thành một dải băng điện di liên tục do có sự phân bố liên tục của các phân đoạn ADN được cắt giới hạn chỉ khác nhau một hoặc một vài nucleotit. Vì vậy, để đơn giản hóa quy trình tách dòng ở những hệ gen này, người ta thường tiến hành biến nạp toàn bộ các phân đoạn ADN (thu được sau khi cắt bằng enzym giới hạn) vào véctơ tách dòng rồi biến nạp tất cả chúng vào tế bào chủ, sau đó mới phân lập các dòng tế bào mang véctơ tái tổ hợp có các đoạn cài ADN khác nhau. Tập hợp các dòng tế bào như vậy được gọi là thư viện hệ gen. Như vậy, thư viện hệ gen là tập hợp các dòng tế bào mang các véctơ tái tổ hợp chứa các đoạn ADN cài khác nhau có cùng nguồn gốc (cùng hệ gen).

Để thiết lập một thư viện gen, hệ gen của tế bào đích (chẳng hạn ADN hệ gen người) được cắt bằng enzym giới hạn để tạo ra các phân đoạn ADN có kích thước trung bình mong muốn. Kích thước các phân đoạn (đoạn cài) có thể dao động từ 100 bp đến trên 1 Mb (đối với các phân đoạn ADN kích thước rất lớn, phân tử ADN thường được cắt không hoàn toàn bằng một enzym giới hạn). Các phân đoạn ADN cắt giới hạn sau đó được “trộn” với một loại véctơ phù hợp (trước đó được cắt bởi cùng loại enzym giới hạn) và ADN ligase. Kết quả của bước này sẽ tạo ra một tập hợp các véctơ mang các đoạn ADN cài khác nhau.

Người ta có thể tạo ra nhiều thư viện gen khác nhau bắt nguồn từ các nguồn vật liệu khác nhau. Thư viện hệ gen đơn giản nhất bắt nguồn từ ADN hệ gen tổng số được cắt bằng một enzym giới hạn duy nhất, gọi là thư viện hệ gen. Loại thư viện này có ý nghĩa ứng dụng rõ rệt nhất nhằm giải mã trình tự các hệ gen. Ngược lại, đối với mục đích tìm và phân lập ra một phân đoạn mang gen mong muốn, thì thư viện hệ gen chỉ tỏ ra hiệu quả đối với hệ gen chỉ chứa một phần tương đối nhỏ các vùng không mã hóa. Đối với các hệ gen phức tạp hơn, thư viện hệ gen không phù hợp cho việc tìm ra phân đoạn mang gen mong muốn bởi vì phần lớn các dòng trong thư viện mang các đoạn cài thuộc các vùng không mã hóa.

Để có được thư viện gen mang hầu hết các đoạn cài là các vùng mã hóa, người ta sử dụng thư viện cADN. Các bước thiết lập thư viện cADN được minh họa trên hình 10. Theo đó, trong bước đầu tiên thay vì bắt đầu từ ADN, người ta phiên mã ngược trình tự mARN thành trình tự ADN phiên bản (cADN). Quá trình này được gọi là quá trình phiên mã ngược và được thực hiện nhờ một enzym ADN polymerase đặc biệt là reverse transcriptase. Enzym này có khả năng tổng hợp ADN bắt nguồn từ phân tử ARN mạch đơn làm khuôn ban đầu. Khi có mặt enzym reverse transcriptase, các trình tự mARN được phiên mã ngược thành các phân tử ADN sợi kép, và những phân tử này có thể được gắn vào các véctơ.

Để có thể phân lập được các đoạn cài riêng rẽ từ thư viện hệ gen, các tế bào E. coli được tiến hành biến nạp với tất cả các phân đoạn trong thư viện. Mỗi một tế bào biến nạp thường chỉ mang duy nhất một véctơ mang đoạn cài ADN. Vì vậy, khi các tế bào nhân lên sau đó chúng sẽ sẽ tạo ra nhiều dòng tế bào, mỗi dòng chứa nhiều bản sao của một phân đoạn trong thư viện cADN. Khuẩn lạc được tạo ra từ các tế bào mang các trình tự ADN mong muốn có thể được phân lập và từ đó thu lại ADN. Có một số cách để xác định các dòng tế bào đã mang gen biến nạp. Chẳng hạn phương pháp được nêu dưới đây sử dụng các mẫu dò ARN và/hoặc ADN để xác định các quần thể tế bào mang một đoạn ADN nhất định nào đó.

Sử dụng lai mẫu dò để xác định các dòng tế bào trong thư viện gen

Trong phương pháp sử dụng mẫu dò, người ta sử dụng các đoạn trình tự ADN/ARN có trình tự bổ trợ được đánh dấu và lai với các dòng tế bào mang các đoạn gen cài khác nhau trong thư viện hệ gen. Kỹ thuật này được gọi là phương pháp lai khuẩn lạc. Một thư viện hệ gen điển hình thường chứa hàng ngàn đoạn cài khác nhau được mang bởi cùng một loại véctơ tách dòng. Sau khi véctơ được biến nạp vào một chủng vi khuẩn phù hợp, các tế bào vi khuẩn được cấy trên bề mặt đĩa petri chứa môi trường bắn rắn chứa agar. Mỗi tế bào sau đó sẽ phát triển lên thành một khuẩn lạc riêng rẽ, và các tế bào trong cùng một khuẩn lạc đều mang cùng loại véctơ và đoạn gen cài giống nhau.

Trong kỹ thuật lai khuẩn lạc, người ta cũng có thể sử dụng loại màng lai được dùng trong các phương pháp thẩm tách Southern và Northern để thu hồi được một lượng “vết” ADN đủ cho sự kết cặp với mẫu dò. Ở đây, người ta sẽ dùng màng lai ép lên bề mặt đĩa nuôi cấy chứa khuẩn lạc và in hình chúng lên màng lai (cùng với ADN của chúng) sao cho vị trí của các dòng tế bào trên màng lai tương ứng với các vị trí khuẩn lạc của chúng trên đĩa petri (theo nguyên tắc “đóng dấu”). Điều này đảm bảo cho việc khi chúng ta xác định được một vị trí trên màng lai có kết quả “dương tính” và việc bắt cặp với mẫu dò thì chúng ta sẽ xác định được tương ứng khuẩn lạc mang dòng tế bào chứa véctơ tái tổ hợp mang đoạn gen cài mong muốn.

Màng lai được đem lai với mẫu dò như sau: người ta tiến hành xử lý màng lai sao cho màng tế bào vỡ ra và các phân tử ADN thoát ra ngoài gắn lên màng lai tại chính vị trí tế bào của chúng. Các màng lai sau đó được ủ với các mẫu dò được đánh dấu từ trước trong các điều kiện giống như khi tiến hành các kỹ thuật thẩm tách Northern hay Southern.

Trong công nghệ ADN tái tổ hợp, ngoài các véctơ plasmit có nguồn gốc vi khuẩn, người ta còn có thể sử dụng véctơ có nguồn gốc virut (bacteriophage), hoặc từ các sinh vật bậc cao hơn như nhiễm sắc thể nhân tạo nấm men (YAC), hay nhiễm sắc thể nhân tạo có nguồn gốc vi khuẩn (BAC), hoặc một số véctơ lai giữa chúng (vd: cosmid, …). Trong các véctơ có nguồn gốc bacteriophage, phage  được sử dụng phổ biến. ADN của virut này được cải biến và sử dụng như véctơ tách dòng. Véctơ này được sử dụng để tách dòng các thư viện hệ gen về nguyên tắc giống hệt như khi sử dụng các véctơ plasmit. Chỉ có một điểm khác lai khi tiến hành lai để xác định các dòng gen biến nạp thì vị trí các mẫu dò được xác định trên màng lai tương ứng với vị trí các vết tan thay cho vị trí các khuẩn lạc như khi sử dụng véctơ tách dòng plasmit.

V.1.5. Tổng hợp hóa học và sử dụng các đoạn oligonucleotit

Các đoạn ADN có trình tự xác định kích thước ngắn được sử dụng nhiều trong các nghiên cứu khác nhau của di truyền học phân tử, chẳng hạn như sử dụng làm mồi trong các phản ứng PCR, hay dùng làm mẫu dò trong các phương pháp lai phân tử. Các đoạn trình tự này thường được tổng hợp theo phương pháp hóa học và được gọi là các đoạn oligonucleotit. Phương pháp hóa học được sử dụng phổ biến nhất được tiến hành trên bề mặt cứng sử dụng máy tự động. Tiền chất để tạo nên các nucleotit lần lượt gắn với đoạn oligonucleotit theo trật tự nhất định được gọi là các hợp chất phosphoamidine (xem minh họa hình 11). Phản ứng kéo dài chuỗi oligonucleotit diễn ra bằng việc gắn thêm tiền chất nucleotit mới vào phía đầu 5’, như vậy ngược chiều với phản ứng kéo dài chuỗi ADN sử dụng enzym ADN polymerase.

Phương pháp tổng hợp hóa học có hiệu quả và độ chính xác cao khi tiến hành tổng hợp các phân tử ADN mạch đơn có độ dài tới 30 nucleotit. Với các thiết bị tổng hợp oligonucleotit hiện nay, một người nghiên cứu có thể dễ dàng tổng hợp bất cứ một trình tự ADN ngắn nào đơn giản bằng cách gõ và nhập trình tự nucleotit mong muốn vào phần mềm máy tính điều khiển máy tổng hợp tự động. Tuy vậy, khi phân tử ADN được tổng hợp có kích thước lớn thì độ chính xác của trình tự và độ đồng đều của sản phẩm tạo thành giảm đi do các lỗi cố hữu mang tính kỹ thuật. Thực tế, các phân tử ADN có trình tự dài hơn 100 nucleotit khó có thể được tổng hợp bằng các phương pháp hóa học mà đảm bảo được số lượng và chất lượng mong muốn.

Các đoạn oligonucleotit kích thước ngắn ngoài các ứng dụng làm mồi phản ứng PCR hay làm mẫu dò như được nêu ở trên, còn có thể được sử dụng cho nhiều mục đích khác trong nghiên cứu di truyền học phân tử. Chẳng hạn như các đoạn oligonucleotit kết cặp sai với một đoạn ADN được tách dòng có thể được dùng để tạo ra một đột biến định vị trí. Phương pháp này, gọi là phương pháp gây đột biến định vị trí, được thực hiện như sau: một trình tự nucleotit nhất định được tiến hành lai với một phân đoạn ADN, ở đây đoạn oligonucleotit được sử dụng làm mồi còn phân đoạn ADN đích được dùng làm khuôn. Trong đoạn ADN sợi kép hình thành sẽ có một vị trí kết cặp sai, và theo nguyên tắc PCR, các phân đoạn ADN được tạo ra trong các phản ứng về sau đều mang đột biến tại vị trí kết cặp sai.

Các đoạn oligonucleotit cũng có thể được sử dụng theo cách tương tự như vậy để tạo nên một điểm cắt giới hạn mới trong một phân tử ADN, để rồi sau đó điểm cắt giới hạn này được sử dụng để cài đoạn ADN đích vào giữa một trình tự mã hóa và một trình tự không mã hóa, hoặc sau một trình tự promoter hay vị trí gắn của ribosom, v.v…

Như vậy, rõ ràng trong các nghiên cứu di truyền học phân tử, việc các đoạn oligonucleotit có thể được tổng hợp theo một trình tự bất kỳ có nhiều ý nghĩa ứng dụng quan trọng trong việc xác định và khuếch đại các đoạn ADN đặc hiệu, để giải mã trình tự ADN, cũng như trong các nghiên cứu tạo đột biến điểm xác định vị trí, hay sử dụng cho công nghệ ADN tái tổ hợp.



V.1.6. Phản ứng PCR

Ngoài các kỹ thuật tách dòng và khuếch đại gen sử dụng các loại tế bào chủ, một phương pháp khuếch đại gen có hiệu quả cao giờ đây đã trở thành một kỹ thuật phổ biến trong hầu hết các nghiên cứu di truyền học phân tử là kỹ thuật phản ứng chuỗi trùng hợp PCR (polymerase chain reaction). Đây là một kỹ thuật hóa sinh invitro thuần túy. Kỹ thuật PCR sử dụng enzym ADN polymerase để tổng hợp nên các phân tử ADN mới từ trình tự của phân tử ADN làm khuôn với tiền chất là các deoxyribonucleotit. Như đã nêu ở Chương 2, các enzym ADN polymerase tổng hợp ADN theo chiều 5’ 3’ và có thể xúc tác gắn nucleotit tiếp theo vào phía đầu 3’ của một trình tự oligonucleotit có sẵn. Nghĩa là, nếu ta có một đoạn trình tự oligonucleotit đã gắn vào một mạch ADN làm khuôn có trình tự bổ sung với trình tự của đoạn oligonucleotit, thì enzym ADN polymerase có thể sử dụng đoạn oligonucleotit đó làm đoạn mồi và tiếp tục kéo dài chuỗi ADN về phía đầu 3’ dựa trên trình tự của mạch ADN làm khuôn.

Vậy, bằng cách nào người ta có thể sử dụng phản ứng PCR và enzym ADN polymerase để khuếch đại một đoạn trình tự ADN đặc hiệu? Người ta sẽ tổng hợp và sử dụng hai đoạn oligonuleotit. Đoạn thứ nhất có trình tự bổ sung với đầu 5’ của một mạch phân đoạn ADN cần khuếch đại (đoạn này gọi là mồi xuôi), còn đoạn trình tự thứ hai bổ sung với đầu 5’ của mạch đối diện (mồi ngược). Phân tử ADN làm khuôn sẽ được làm biến tính (bởi nhiệt) và các mồi xuôi và môi ngược sẽ gắn vào trình tự bổ sung ở hai đầu đoạn ADN cần khuếch đại. Với sự có mặt của các cơ chất là các deoxyribonucleotit, enzym ADN polymerase sẽ tổng hợp và kéo dài một mạch phân tử ADN bắt đầu từ hai đoạn mồi.

Trong chu kỳ tiếp theo, phân tử ADN lại được gây biến tính và quá trình tổng hợp ADN được lặp lại với cùng cặp mồi. Kết quả của chu kỳ thứ hai tạo ra 4 bản sao của phân đoạn gen mong muốn. Theo cơ chế đó, chu kỳ biến tính và tổng hợp ADN diễn ra lặp đi lặp lại sẽ làm khuếch đại phân đoạn ADN nằm giữa 2 trình tự mồi theo cấp số nhân (số bản sao tương ứng qua các chu kỳ sẽ lần lượt là 2, 4, 8, 16, 32, 64, v.v…). Như vậy, chỉ cần từ một bản sao ADN duy nhất có mặt trong một lượng mẫu nhỏ, chúng ta có thể thu được một lượng lớn bản sao xuất phát từ bản sao đầu tiên.

Xét về một khía cạnh nào đó, kỹ thuật tách dòng ADN và PCR đều được dùng để khuếch đại một phân đoạn ADN đặc thù lên một số lượng lớn. Nhưng điểm khác biệt là ở chỗ, trong kỹ thuật tách dòng, chúng ta thường sử dụng một hóa chất chọn lọc hay một thiết bị nào đó để định vị được trình tự ADN đã được khuếch đại trong một thư viện ADN đã có sẵn gồm nhiều dòng tế bào khác nhau, trong khi ở kỹ thuật PCR, hóa chất chọn lọc chính là cặp mồi sẽ giúp hạn chế phản ứng khuếch đại chỉ tập trung vào đoạn ADN được quan tâm ngay từ đầu.

V.1.7. Giải mã trình tự ADN

Trong phần này chúng ta sẽ xem xét bằng cách nào có thể xác định được trình tự nucleotit của các phân đoạn hoặc toàn bộ phân tử ADN mong muốn. Về một khía cạnh nào đó, có thể coi giải mã trình tự các nucleotit là việc đánh dấu mẫu dò triệt để nhất của một hệ gen với tính chọn lọc cao. Chúng ta sẽ xác định toàn bộ trình tự hệ gen của các cơ thể sinh vật có mức độ cấu tạo phức tạp khác nhau từ vi khuẩn cho đến loài người, và điều này cho phép chúng ta tìm thấy mọi trình tự đặc hiệu một cách nhanh và chính xác thông qua việc sử dụng các phần mềm máy tính với các thuật toán phù hợp. Hay nói cách khác, “các chất chọn lọc” của chúng ta ở đây là các chuỗi bazơ nitơ được chúng ta nhập vào phần mềm máy tính. Do cơ sở dữ liệu về các hệ gen ngày càng trở nên phong phú, nên ngày càng trở nên dễ dàng hơn để có thể tìm thấy các bản sao của trình tự các hệ gen hoặc của các trình tự có liên quan trong cùng một loài hoặc của các loài khác. Rõ ràng, việc giải mã trình tự các nucleotit đã tạo ra một cơ sở dữ liệu khổng lồ phục vụ cho các nghiên cứu giải mã trình tự và so sánh giữa các hệ gen được đề cập dưới đây.

Nguyên tắc giải mã trình tự ADN về cơ bản dựa trên việc phân tách các phân đoạn ADN có kích thước khác nhau được giới hạn bởi hai đầu. Các phân tử ADN đều giống nhau ở phần đầu 5’, nhưng kết thúc ở phía đầu 3’ có các nucleotit khác nhau. Các thành viên của một nhóm sẽ có nucleotit ở phía đầu 3’ giống nhau. Như vậy, trong một nhóm sẽ bao gồm tất cả các phân tử ADN tận cùng đầu 3’ bằng G, nhóm khác tương ứng là A, C và T. Trong mỗi nhóm các phân tử sẽ có kích thước khác nhau phụ thuộc vào vị trí của nucleotit tương ứng (ví dụ như G) nằm trên phân tử ADN. Các phân đoạn khác biệt về chiều dài như vậy có thể phân tách được nhờ sử dụng kỹ thuật điện di trên gel polyacrylamid. Chẳng hạn khi chạy hỗn hợp các phân tử ADN tận cùng đầu G ta sẽ thu được thang các băng điện di tương ứng với các phân đoạn, trong đó mỗi băng tương ứng với một phân đoạn có chiều dài phản ánh vị trí của nucleotit G trên phân tử ADN….

Giải mã trình tự hệ gen vi khuẩn bằng kỹ thuật shotgun (“giải mã từng đoạn ngẫu nhiên”)

Vi khuẩn gây bệnh kiết lị ở người Hemophilus influenza là loài sinh vật đầu tiên được giải mã toàn bộ hệ gen. Sở dĩ hệ gen của loài này được hoàn thành việc giải mã đầu tiên là nhờ hệ gen của nó nhỏ, chỉ chứa một phân tử ADN duy nhất kích thước 1,8 Mb. Hệ gen của vi khuẩn này được “cắt” thành các phân đoạn nhỏ có kích thước trung bình khoảng 1 kb. Các đoạn ADN hệ gen này sau đó được tách dòng bằng các véctơ ADN plasmit tái tổ hợp. ADN từ các dòng vi khuẩn chứa các phân đoạn ADN tái tổ hợp riêng rẽ rồi được giải mã trình tự riêng rẽ trên các máy giải mã trình tự tự động sử dụng phương pháp ddNTP như mô tả ở phần trên. Phương pháp này được gọi là phương pháp giải mã trình tự kiểu “shotgun” (bắn ngẫu nhiên). Các khuẩn lạc mang các véctơ tơ tái tổ hợp mang đoạn ADN cài ngẫu nhiên được phân lập, xử lý và giải mã trình tự. Để chắc chắn rằng mọi nucleotit trong hệ gen vi khuẩn đều có mặt trong các dòng vi khuẩn của thư viện hệ gen, tổng cộng có khoảng 30.000 - 40.000 dòng tái tổ hợp khác nhau được sử dụng và giải mã trình tự. Từ đó, tạo ra khoảng 20 Mb dữ liệu thô về hệ gen (các phản ứng tạo ra trình tự có kích thước trung bình 600 bp, và 20 Mb = 600 bp x 33.000 dòng vi khuẩn). Dữ liệu này được gọi là vùng trình tự 10x. Bởi vì, mỗi nucleotit trong hệ gen được đọc lặp lại khoảng 10 lần.

Phương pháp này dường như là tốn nhiều công sức, nhưng chi phí rẻ hơn và nhanh hơn so với các phương pháp truyền thống khác. Một phương pháp giải mã trình tự trước đây dựa trên nguyên tắc giải mã từng phân đoạn ADN cắt giới hạn trên bản đồ vật lý của nhiễm sắc thể vi khuẩn. Một hạn chế của kỹ thuật này là hầu hết các phân đoạn cắt giới hạn có kích thước lớn hơn kích thước có thể giải mã trình tự hoàn toàn trong mỗi phản ứng được thực hiện. Do vậy, để giải mã toàn bộ hệ gen, người ta phải tiến hành cắt giới hạn, lập bản đồ và giải mã trình tự nhiều lần. Các bước này nếu lặp đi lặp lại nhiều lần sẽ tồn nhiều thời gian hơn khi sử dụng phương pháp giải mã trình tự tự động của các phân đoạn ADN ngẫu nhiên. Hay nói cách khác, nhờ sử dụng phần mềm máy tính việc sắp xếp lại các phân đoạn ADN ngẫu nhiên vẫn nhanh hơn nhiều việc lập bản đồ các phân đoạn cắt giới hạn trên NST vi khuẩn.

Khoảng 30.000 đoạn trình tự ADN được giải mã trình tự ngẫu nhiên được trực tiếp nhập vào phần mềm máy tính. Nhiều phần mềm máy tính chuyên dụng hiện nay có thể xếp các đoạn trình tự theo đúng thứ tự dựa trên các trình tự gối lên nhau của chúng. Sự “lắp ráp” thành trình tự của các phân đoạn ADN ngắn cuối cùng sẽ có một trình tự liên tục duy nhất, còn được gọi là một contig.



Kỹ thuật giải mã trình tự kiểu shotgun cho phép “ráp nối” từng phần của hệ gen lớn

Như đã trình bày ở trên việc giải mã các đoạn trình tự ADN kích thước khoảng 600 bp hiện nay có thể thực hiện một cách tương đối đơn giản và nhanh chóng. Ở đây, chúng ta sẽ xem bằng cách nào kỹ thuật “shortgun” được áp dụng để giải mã trình tự các hệ gen lớn.

Chẳng hạn, nhiễm sắc thể người có kích thước trung bình khoảng 150Mb. Do vậy, mỗi đoạn trình tự ~600 bp được giải mã chỉ chiếm 0,0004% của mỗi NST. Kết quả là để có thể xác định được trình tự đầy đủ của một NST, người ta cần tạo ra một số lượng lớn các dữ liệu trình tự từ nhiều phân đoạn ADN ngắn (hình 12). Các phân đoạn ADN nhỏ được tạo ra từ 23 NST của hệ gen người, rồi sau đó được cắt ngắn thành một thư viện các đoạn ADN nhỏ bằng một kỹ thuật “kim áp lực”. Thông thường, có 2 hoặc 3 thư viện hệ gen chứa các đoạn trình tự có kích thước khác nhau (tăng dần) được tạo ra, chẳng hạn tương ứng với các đoạn trình tự có kích thước 1, 5 và 100 kb. Các phân đoạn này sau đó được tách dòng ngẫu nhiên vào các plasmit của vi khuẩn theo phương pháp được mô tả ở trên.

Các phân tử ADN tái tổ hợp mang các phân đoạn ngẫu nhiên của NST người sau đó được phân lập từ các plasmit vi khuẩn rồi giải mã bằng máy giải mã trình tự tự động. Để đảm bảo mọi nucleotit trong hệ gen đều được giải mã, người ta phải tiến hành giải mã riêng rẽ khoảng 2 triệu phân đoạn ADN khác nhau. Với kích thước của mỗi phân đoạn có thể giải mã chính xác khoảng 600 bp, quy trình này tạo ra dữ liệu khoảng 1 tỉ bp, hay nói các khác là gấp ~10 lần kích thước trung bình của một NST. Như đã trình bày ở trên với kỹ thuật giải mã trình tự ở vi khuẩn, việc phân tích các mẫu với lượng trình tự gấp khoảng 10 lần lượng ADN thực cần giải mã trình tự sẽ đảm bảo mọi phần của NST đều được phân tích.

Quá trình tạo ra các thư viện tái tổ hợp mang các trình tự ngẫu nhiên và một lượng lớn ADN cần phải giải mã trình tự ngẫu nhiên dường như là một việc làm rất lãng phí. Tuy vậy, với việc sử dụng hệ thống một trăm máy giải mã trình tự tự động gồm 384 cột sẽ cho phép phân tích 10 lần một nhiễm sắc thể người chi tiết trong vòng 3 tuần. Phương pháp này vì vậy vẫn nhanh hơn nhiều phương pháp phân lập từng phần đã biết trong NST, rồi sau đó giải mã trình tự một tập hợp đã biết của các đoạn ADN được đặt so le. Vì vậy, bản chất của công nghệ cốt lõi được sử dụng để thúc đẩy việc giải mã hệ gen người dựa trên kĩ thuật giải mã trình tự ngẫu nhiên tự động, rồi sau đó sử dụng phần mềm máy tính để sắp xếp lại các đoạn ADN khác nhau giống như trò chơi “ghép hình” vậy. Việc kết hợp sử dụng máy giải mã trình tự tự động với phần mềm máy tính đã giúp dự án giải mã toàn bộ hệ gen người kết thúc sớm hơn nhiều năm so với kế hoạch ban đầu.

Các chương trình máy tính phức tạp được sử dụng để tập hợp các đoạn ADN ngắn được giải mã trình tự ngẫu nhiên thành những đoạn trình tự dài kích thước lớn kế tiếp nhau được gọi là những contig. Các đoạn trình tự nằm gối lên nhau sẽ được phần mềm xử lý rồi nối lại với nhau thành các trình tự lớn hơn. Kích thước của các đoạn contig phụ thuộc vào lượng trình tự đã được giải mã. Nếu lượng trình tự giải mã càng nhiều, thì các đoạn contig càng có kích thước lớn và khoảng cách trống chưa được giải mã càng nhỏ.

Thông thường các đoạn contig riêng rẽ thường có kích thước 50.000 - 200.000 bp. Nghĩa là ngắn hơn nhiều so với kích thước NST ở người. Tuy vậy, các đoạn contig rất hiệu quả khi phân tích các hệ gen nhỏ. Chẳng hạn, hệ gen của ruồi dấm (Drosophila) trung bình có mật độ 1 gen / 10 kb. Vì vậy, một contig điển hình thường chứa vài gen liên kết với nhau. Rất tiếc là các hệ gen lớn lại thường chứa mật độ gen thấp. Hệ gen người có mật độ trung bình là 1 gen / 100 kb, vì vậy một contig điển hình thường không chứa được trình tự trọn vẹn của một gen, chứ chưa nói đến là một dãy gen liên kết. Bây giờ, chúng ta sẽ nói đến bằng cách nào các đoạn contig tương đối ngắn có thể được lắp ráp lại thành các đoạn khung có kích thước 1-2Mb.

Phương pháp giải mã trình tự đầu cuối cho phép lắp ráp các contig thành các đoạn khung ở các hệ gen kích thước lớn

Một khó khăn lớn gặp phải khi thiết lập các đoạn contig là sự xuất hiện của các đoạn ADN lặp lại. Các đoạn trình tự này làm việc ráp nối trở nên khó khăn và phức tạp do các đoạn ADN không liên kết (từ các NST khác nhau) nhưng có thể bị xếp thành các đoạn trình tự nằm gối lên nhau do chúng có cùng trình tự lặp lại. Một phương pháp được sử dụng để khắc phục trở ngại này là kĩ thuật giải mã phần nối trình tự đầu cuối. Kỹ thuật này tương đối đơn giản nhưng hiệu quả mà nó mang lại cao.

Ngoài việc ADN hệ gen được dùng để tạo nên một thư viện các đoạn ADN ngắn nhằm giải mã trình tự ngẫu nhiên, thì chính ADN hệ gen đó đồng thời được dùng để tạo nên các đoạn ADN tái tổ hợp mang các đoạn có kích thước lớn, thường có kích thước 3 - 100 kb. Giả sử chúng ta có một mẫu ADN từ một NST người. Một phần của mẫu này được dùng để tạo nên các phân đoạn có kích thước 1 kb, trong khi một phần khác được dùng để tạo nên các phân đoạn có kích thước 5 kb. Kết quả của quá trình đó là người ta thu được 2 thư viện hệ gen khác nhau, một mang các đoạn cài kích thước ngắn, còn thư viện kia là các đoạn cài kích thước lớn (hình 12).

Tiếp theo, người ta sử dụng các đoạn mồi “đa năng” (có tính chọn lọc thấp) có thể gắn vào phần đoạn nối giữa plasmit và hai vùng biên của đoạn ADN cài kích thước lớn. Mỗi một phản ứng giải mã trình tự cho phép tạo ra thông tin về trình tự của một đoạn kích thước khoảng 600 bp ở hai đầu của một đoạn cài bất kỳ. Một bản ghi nhớ sẽ ghi chép lại các trình tự ở hai đầu của cùng một phân đoạn kích thước lớn. Việc dùng phần mềm sau đó cho thấy một trình tự được tìm thấy ở contig A, còn trình tự kia được tìm thấy ở contig B. Nếu contig A và B cùng có các trình tự có mặt trong một phân đoạn kích thước khoảng 5 kb thì có thể giả thiết chúng cùng xuất xứ từ một vùng của một NST. Trong khi đó hầu hết các phân đoạn ADN lặp lại thường có kích thước nhỏ hơn 2-3 kb. Vì vậy, các đoạn trình tự ADN đầu cuối xuất xứ từ các đoạn cài ~5kb là đủ để nối các contig bị ngắt quãng bởi các đoạn ADN có trình tự lặp lại.

Các nghiên cứu ban đầu thường chỉ tạo ra các đoạn contig có kích thước nhỏ hơn 500 kb. Để thu được dữ liệu từ các đoạn có trình tự dài, có kích thước vài Mb hoặc dài hơn, người ta cần dữ liệu từ các trình tự đầu cuối từ các phân đoạn ADN lớn có kích thước ít nhất là 100 kb. Các đoạn ADN này có thể thu được từ bằng một véctơ tách dòng đặc biệt gọi là nhiễm sắc thể nhân tạo vi khuẩn - BAC (bacterial artificial chromosome). Nguyên tắc các đoạn này được dùng để tạo nên thông tin của các trình tự dài là giống như trường hợp sử dụng các đoạn 5 kb được mô tả ở trên. Các đoạn mồi được dùng để xác định trình tự ~600kb ở hai đầu của đoạn cài BAC. Việc sử dụng BAC cho phép sắp xếp nhiều đoạn contig khác nhau vào cùng một đoạn khung duy nhất có kích thước lớn tới vài Mb (hình 13).

Chất lượng của việc ráp nối hệ gen là một phép đo kích thước đoạn khung trung bình. Những đoạn khung nào có kích thước từ 1 Mb trở lên được tìm thấy được xem là có kết quả ráp nối tốt. Ví dụ như, ở loài cá bể dẹt (Tetraodontidae) có kích thước hệ gen 800 Mb, và trình tự ráp nối của toàn hệ gen này gồm 500 đoạn khung khác nhau, như vậy mỗi đoạn khung có kích thước trung bình 1,6 Mb. Một “hiệu quả” ráp nối cao như vậy cũng tạo thuận lợi cho nhiều phân tích di truyền khác, chẳng hạn như có thể dễ dàng xác định được tất cả các vùng mã hóa của hệ gen. Đến năm 2000, kích thước trung bình của các đoạn khung được xây dựng cho hệ gen người có kích thước là 2 Mb. Điều này là đủ để có thể tin cậy về số gen ước lượng có trong hệ gen (xấp xỉ 30.000 gen).



Phân tích mở rộng hệ gen

Đối với các hệ gen nhỏ như của vi khuẩn hay các loài sinh vật nhân chuẩn đơn giản, việc xác định các trình tự mã hóa protein thường có thể ngoại suy trực tiếp từ kết quả giải mã trình tự, mà thực chất là thông qua việc xác định các ORF. Mặc dù không phải tất cả các ORF (đặc biệt là các ORF ngắn) đều thực sự là các gen mã hóa protein, thì việc xác định như vậy thường cũng rất hiệu quả, việc khó khăn hơn thường là việc xác định được chức năng của các gen đó hoặc sản phẩm (protein) của nó.

Việc xác định được vùng mã hóa protein ở hệ gen các loài động vật vốn phổ biến chứa cấu trúc exon - intron thực tế phức tạp hơn nhiều. Trong trường hợp này, người ta phải sử dụng “một loạt” các công cụ tin sinh học để xác định được các gen và thành phần di truyền của các hệ gen phức tạp. Các chương trình máy tính đã được lập trình để có thể xác định được các vùng có tiềm năng mã hóa protein dựa trên một số tiêu chí nhất định, bao gồm sự xuất hiện của các ORF được chặn bởi các vị trí cắt ở hai đầu và gần kề một trình tự khởi đầu phiên mã (promoter). Tuy vậy, các chương trình phân tích gen này đến nay vẫn chưa hoàn thiện để có thể khẳng định sự chính xác là 100%. Một tỉ lệ khoảng 3/4 số gen có thể được xác định bằng phương pháp này, nhưng cũng có rất nhiều gen bị bỏ sót; và thậm chí chi tiết hơn trong một gen, một số trình tự exon cũng có thể bị bỏ sót.

Một hạn chế đáng kể nữa của các chương trình tìm gen hiện nay là đôi khi không xác định được đầy đủ các promoter. Ví dụ như một promoter lõi điển hình ở động vật đa bào có kích thước khoảng 60 bp, chứa các trình tự định dạng (motif), như TATA, INR và DPE, là những motif cần thiết cho sự gắn vào của phức hệ khởi động TFIID và phức hệ phiên mã của enzym ARN Polymerase II. Đáng tiếc là trình tự của yếu tố khởi đầu phiên mã lõi này có mức độ biến đổi rất lớn. Mặc dù trong khi phức hệ khởi đầu phiên mã của tế bào đủ “thông minh” để xác định được những trình tự này, thì đến nay con người chưa viết được các chương trình máy tính cho phép xác định được đầy đủ các promoter lõi dạng này. Tất nhiên, hiện nay các nhà sinh tin học đang tiếp tục hoàn thiện các chương trình phần mềm để đến một ngày nào đó chúng ta có thể xác định, phân tích được tất cả các thuộc tính của gen đã nêu ở trên, bao gồm các yếu tố promoter lõi, các ORF, các điểm cắt và tái tổ hợp gen, v.v… để xác định được đúng và đầy đủ các gen mã hóa protein.

Phương pháp quan trọng nhất để kiểm chứng các gen mã hóa protein suy đoán và xác định các gen bị bỏ sót bởi các phần mềm máy tính là sử dụng dữ liệu cADN. cADN được tạo ra theo nguyên tắc phiên mã ngược từ các phân tử mARN hoàn thiện, vì vậy nó phản ánh đúng các trình tự exon thực sự. Các phân tử cADN được dùng để tạo ra cơ sở dữ liệu EST, hay còn gọi là nhãn xác định trình tự biểu hiện (expressed sequence tag), thực chất là các đoạn trình tự ngắn được trích ra từ một trình tự cADN đã biết. Các trình tự cADN ngẫu nhiên (có thể là trình tự đầy đủ hay các trình tự một phần EST) được xác định bằng sử dụng phương pháp giải mã trình tự ngẫu nhiên rồi được đối chiếu với các đoạn khung của hệ gen. Các vùng tương ứng với các EST được xác định là các exon, còn các vùng nằm giữa các exon tương ứng với các intron (mặc dù, nguyên tắc cắt intron khác nhau có thể sử dụng một exon không có mặt trong cADN hay EST được giải mã trình tự). Các thông tin giải mã trình tự cADN và EST cũng giúp tìm được sự liên kết giữa các contig, giữa các đoạn khung và giữa chúng với nhau. Chẳng hạn như giả sử có một phân tử cADN được phiên mã từ một gen kích thước rất lớn có chiều dài intron là 100 kb hoặc hơn. Có hai đoạn khung cùng chứa các trình tự khác nhau của phân tử cADN chung này, thì nhiều khả năng chúng là các vùng liên kết của hệ gen và biểu hiện là các đoạn của cùng một gen.

V.1.8. Phân tích so sánh các hệ gen

Việc so sánh hệ gen giữa các loài động vật khác nhau là cơ sở trực tiếp để đánh giá sự biến đổi về cấu trúc gen và trình tự của chúng xuất hiện trong quá trình tiến hóa. Việc so sánh các hệ gen như vậy đồng thời cùng giúp khẳng định chắc chắn hơn về các vùng gen mã hóa protein trong một hệ gen của loài nào đó. Ví dụ như các exon của các gen đồng tiến hóa có mức độ bảo thủ cao hơn nhiều so với các intron. Việc so sánh hệ gen người và chuột đã tìm thấy nhiều exon có tính bảo thủ cao. Việc so sánh giữa các hệ gen cũng đồng thời giúp xác định các trình tự exon ngắn (hay tìm thấy ở phần đầu 5’ của gen và vùng promoter lõi) vốn thường bị sót khi xác định bằng phần mềm máy tính.

Một trong những khám phá nổi bật của phép phân tích so sánh các hệ gen là việc tìm ra sự phổ biến của tính bảo thủ liên kết giữa các gen trên cùng NST. Ở người và chuột, sự bảo thủ của tính liên kết giữa các gen trên cùng NST là rất phổ biến. Trong nhiều trường hợp, tính bảo thủ này được tìm thấy ở cả các loài rất xa nhau trong quá trình tiến hóa, ví dụ như ở loài cá bể dẹt có tổ tiên chung với các loài động vật có vú từ 400 triệu năm trước đây. Hiện tượng phổ biến của sự bảo thủ trong tính liên kết của nhiều gen cho thấy có nhiều khả năng các gen “láng giềng” cùng dùng chung các trình tự điều hòa gen. Một điều tra dùng phần mềm máy tính gần đây tìm thấy trong một đoạn NST có kích thước 100 - 200 kb ở ruồi dấm Drosophila có 10 - 20 gen liên kết có hình thức điều hòa sự biểu hiện giống hệt nhau. Ở ruồi dấm có khoảng 500 - 1000 đoạn NST duy trì sự liên kết bảo thủ này có thể là do các gen liên kết cùng phụ thuộc vào các trình tự điều hòa chung ở vùng NST đó.

Các trình tự mã hóa protein không chỉ là các vùng của hệ gen được giới hạn về chức năng. Các trình tự điều hòa (vị trí gắn của các yếu tố phiên mã và các yếu tố điều hòa hoạt động gen, như các yếu tố tăng cường enhancer) thường có tính bảo thủ cao. Các trình tự này thường được xác định là các trình tự không mã hóa protein ngắn và bảo thủ. Ví dụ một chương trình máy tính gọi là VISTA (không phải hệ điều hành mới đây của Microsoft) khi phân tích hệ gen ở nhiều loài khác nhau tìm thấy sự bảo thủ ở ở tỉ lệ 70% trong một đoạn trình tự phân tích 50 - 75 bp đối với một số trình tự ADN có vai trò điều hòa. Hai loài cá bể dẹt và chuột cùng có khoảng 10.000 các đoạn trình tự không mã hóa ngắn giống nhau, rất có thể chúng là các trình tự tăng cường đặc trưng mô. Tuy vậy, cả hai loài này, đặc biệt ở chuột, dường như có nhiều trình tự điều hòa bị bỏ sót khi sử dụng phần mềm máy tính để phân tích trình tự gen. Người ta đã xác định được ở loài động vật bậc thấp Ciona intestialis có chứa khoảng 20.000 các trình tự enhancer, và vì vậy không có gì là ngạc nhiên nếu người và chuột sẽ có khoảng 50.000 - 100.000 các trình tự enhancer trong hệ gen.

Các phương pháp được sử dụng để xác định các trình tự tăng cường dựa trên việc xác định các vị trí liên kết của các yếu tố hoạt hóa hoặc ức chế phiên mã. Việc xác định được các trình tự điều hòa trong phân tử ADN còn là thách thức lớn hơn so với việc xác định được các trình tự mã hóa protein bởi các trình tự điều hòa không bị hạn chế bởi các nguyên lý của mã di truyền. Vì vậy, dường như việc phải phối hợp nhiều phương pháp sinh tin học và chương trình máy tính là cần thiết để có thể xác định được các trình tự ADN điều hòa trong toàn bộ hệ gen.

Công cụ phần mềm phân tích hệ gen được sử dụng rộng rãi nhất hiện nay là BLAST (basic local alignment tool). Có một số cải biến khác nhau trong các chương trình BLAST, tuy vậy tất cả các chương trình này đều có các đặc điểm chung là tìm được những vùng giống nhau giữa các gen mã hoa protein khác nhau. Có nhiều cách để tìm dữ liệu từ BLAST. Một trong những cách đó là sử dụng công cụ tìm kiếm hệ gen hoặc các hệ gen đối với tất cả các trình tự protein được dự đoán trước gọi là “querry sequence”. Chẳng hạn như ví dụ sau: gen eve mã hóa trong một protein điều hòa phiên mã thiết yếu cho sự phân hóa tế bào ở phôi Drosophila. Protein Eve có 376 axit amin. Vùng chức năng của protein này nằm giữa các axit amin 71 - 130. Khi sử dụng trình tự của 60 axit amin này để tìm kiếm, kết quả cho thấy hệ gen Drosophila có 75 gen mã hóa chứa trình tự này. Như vậy, chương trình BLAST đã nhanh chóng xác định được một loạt các gen có chức năng tương tự.

Một cách khác để khai thác cơ sở dữ liệu của BLAST là tra cứu theo trình tự nucleotit. Chẳng hạn như trong thí dụ trên, người ta có thể sử dụng tương ứng trình tự 180 bp mã hóa cho hộp định loại gen (homeobox).

Tóm lại, việc trình tự các hệ gen đầy đủ của các loài khác nhau ngày càng tăng lên đã cung cấp một cơ sở dữ liệu ngày càng phong phú và đầy đủ cho các nghiên cứu hệ gen học so sánh. Ngày càng có nhiều các chương trình máy tính được phát triển và hoàn thiện để khai thác vốn thông tin di truyền đang ngày càng được tạo ra đầy đủ hơn qua các chương trình giải mã ADN tự động.




tải về 201.04 Kb.

Chia sẻ với bạn bè của bạn:
  1   2




Cơ sở dữ liệu được bảo vệ bởi bản quyền ©hocday.com 2024
được sử dụng cho việc quản lý

    Quê hương